All posts by Денис Турдаков
Видеозапись одиннадцатой лекции. Машинный перевод.
Видеозапись десятой лекции. Приложения обработки текстов.
Информационный поиск, вопросно-ответные системы и автоматическое реферирование
Видеозапись девятой лекции. Лексическая семантика.
Видеозаписи седьмой и восьмой лекций
Видеозаписи седьмой и восьмой лекций утеряны. 🙁
Видеозапись шестой лекции
Видеозапись пятой лекции
Следующая лекция для ВШЭ
Внимание! Следующая лекция для ВШЭ состоится в пятницу 9 декабря, а затем 23 декабря.
Модели word2vec
В решениях практического задания можно использовать векторное представление слов, полученное с помощью word2vec.
Модель обученную на русскоязычной Википедии можно скачать бинарном представлении.
Для работы с бинарным представлением используйте библиотеку gensim. На проверяющей машине будет gensim, а модель в бинарном виде будет доступна корне.
from gensim.models import Word2Vec word2vec = Word2Vec.load_word2vec_format("vectors.bin", binary=True)
Информация по практическому заданию
На основе вопросов по разметке был составлен документ с примерами и ответами на частые вопросы.
Также был обновлен шаблон решения: исправлен баг, когда при определении значений у термина не оказывалось ни одного подходящего значения из русскоязычной Википедии и решение падало. Также в конструктор добавлен код, автоматически ждущий минуту, при превышении лимита запросов к API Текстерры.
Кроме того были увеличены лимиты API до 300 запросов в минуту и 10000 в день. Тем не менее, рекомендую кэшировать ответы Текстерры.