Модели word2vec

В решениях практического задания можно использовать векторное представление слов, полученное с помощью word2vec.

Модель обученную на русскоязычной Википедии можно скачать бинарном представлении.

Для работы с бинарным представлением используйте библиотеку gensim. На проверяющей машине будет gensim, а модель в бинарном виде будет доступна корне.

from gensim.models import Word2Vec
word2vec = Word2Vec.load_word2vec_format("vectors.bin", binary=True)

Информация по практическому заданию

На основе вопросов по разметке был составлен документ с примерами и ответами на частые вопросы.

Также был обновлен шаблон решения: исправлен баг, когда при определении значений у термина не оказывалось ни одного подходящего значения из русскоязычной Википедии и решение падало. Также в конструктор добавлен код, автоматически ждущий минуту, при превышении лимита запросов к API Текстерры.

Кроме того были увеличены лимиты API до 300 запросов в минуту и 10000 в день. Тем не менее, рекомендую кэшировать ответы Текстерры.

Слайды лекций 2015 года

Лекция Слайды
Лекция 1. Задачи обработки текстов lecture1-2015
Лекция 2. Регулярные выражения и конечные автоматы. lecture2-2015
Лекция 3. Языковые модели и задача определения частей речи lecture3-2015
Лекция 4. Методы классификации и кластеризации lecture4-2015
Лекция 5. Методы поиска словосочетаний lecture5-2015
Лекция 6. Контекстно-свободные грамматики и синтаксический анализ lecture6-2015
Лекция 7. Статистические методы синтаксического анализа lecture7-2015
Лекция 8. Лексическая семантика lecture8-2015
Лекция 9. Информационный поиск, вопросно-ответные системы и автоматическое реферирование lecture9_2015
Лекция 10. Машинный перевод lecture10_2015
Лекция 11. Тематическое моделирование lecture11-2015

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ