Лекция 7. Лексическая семантика

November 21, 2011 Денис Турдаков 1 Comment

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).

Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
WordNet и его применение
Задача разрешения лексической многозначности (Word Sense Disambiguation)
Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
Алгоритмы, основанные на тезаурусах и словарях
Подход, основанный на самонастройке (bootstrapping)
Методы оценки алгоритмов
Нижняя и верхняя оценки точности и полноты алгоритмов
Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
Некоторые современные направления лексической семантики

Чат бот

November 18, 2011 Денис Турдаков Leave a comment

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.

Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.

Лекция 6. Статистические методы синтаксического анализа

November 11, 2011 Денис Турдаков Leave a comment

Доступны слайды шестой лекции. Рассмариваются

Стохастические контекстно-свободные грамматики (СКС)
Применение СКС к разрешению синтаксической многозначности и моделированию языка
Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
Алгоритм Коллинза (Collins 1999)
Методы оценки алгоритмов статистического синтаксического разбора
В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.

Лекция 5. Контекстно-свободные грамматики и синтаксический анализ

November 11, 2011 Денис Турдаков Leave a comment

Доступны слайды лекции 5. На лекции обсуждались

некоторые особенности грамматики естественных языков;
наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Уровень классификатора на оценку отлично

November 11, 2011 Денис Турдаков 1 Comment

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.

Таблица результатов

November 10, 2011 Денис Турдаков Leave a comment

Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.

Лекция 4. Марковские модели

October 22, 2011 Денис Турдаков 2 Comments

Выложил слайды четвертой лекции.

На лекции обсуждались

Марковские модели
Прямой алгоритм
Алгоритм Витерби
Линейная регрессия
Логистическая регрессия
Полиномиальная логистическая регрессия (Метод максимальной энтропии)
Марковские модели максимальной энтропии

Для лучшего понимания, рекомендую следующую литературу.

Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
Первые лекции Стэнфордского курса по машинному обучению http://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (На том же сайте можно найти видео. Про линейную регрессию рассказывается во второй лекции, про логистическую - в третьей и четвертой)

Практическое задание

October 20, 2011 Денис Турдаков Leave a comment

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке.

Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.

Лекция 3. Языковые модели и задача определения частей речи

October 18, 2011 Денис Турдаков Leave a comment

Выложил лекцию 3: слайды и примеры программ.

На лекции обсуждались:

Модель N-грамм для моделирования языка
Методы сглаживания
Задача определения частей речи и подходы к ее решению

К вопросу о вероятности языка