Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).
Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
WordNet и его применение
Задача разрешения лексической многозначности (Word Sense Disambiguation)
Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
Алгоритмы, основанные на тезаурусах и словарях
Подход, основанный на самонастройке (bootstrapping)
Методы оценки алгоритмов
Нижняя и верхняя оценки точности и полноты алгоритмов
Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
Некоторые современные направления лексической семантики
По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.
Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.
Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.
Детали этого классификатора будут обнародованы после окончания соревнования.
Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.
Для лучшего понимания, рекомендую следующую литературу.
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).
Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.
Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ