Чат бот

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.

Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.

Лекция 6. Статистические методы синтаксического анализа

Доступны слайды шестой лекции. Рассмариваются

  • Стохастические контекстно-свободные грамматики (СКС)
  • Применение СКС к разрешению синтаксической многозначности и моделированию языка
  • Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
  • Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
  • Алгоритм Коллинза (Collins 1999)
  • Методы оценки алгоритмов статистического синтаксического разбора
  • В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.

Лекция 5. Контекстно-свободные грамматики и синтаксический анализ

Доступны слайды лекции 5. На лекции обсуждались

  • некоторые особенности грамматики естественных языков;
  • наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
  • алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
  • фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Уровень классификатора на оценку отлично

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.

Лекция 4. Марковские модели

Выложил слайды четвертой лекции.

На лекции обсуждались

  • Марковские модели
  • Прямой алгоритм
  • Алгоритм Витерби
  • Линейная регрессия
  • Логистическая регрессия
  • Полиномиальная логистическая регрессия (Метод максимальной энтропии)
  • Марковские модели максимальной энтропии
Для лучшего понимания, рекомендую следующую литературу.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
  • Первые лекции Стэнфордского курса по машинному обучению http://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (На том же сайте можно найти видео. Про линейную регрессию рассказывается во второй лекции, про логистическую - в третьей и четвертой)

Практическое задание

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке.

Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.

 

К вопросу о вероятности языка

На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).

Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ