All posts by Денис Турдаков

Уровень классификатора на оценку отлично

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.

Лекция 4. Марковские модели

Выложил слайды четвертой лекции.

На лекции обсуждались

  • Марковские модели
  • Прямой алгоритм
  • Алгоритм Витерби
  • Линейная регрессия
  • Логистическая регрессия
  • Полиномиальная логистическая регрессия (Метод максимальной энтропии)
  • Марковские модели максимальной энтропии
Для лучшего понимания, рекомендую следующую литературу.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
  • Первые лекции Стэнфордского курса по машинному обучению http://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (На том же сайте можно найти видео. Про линейную регрессию рассказывается во второй лекции, про логистическую - в третьей и четвертой)

Практическое задание

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке.

Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.

 

К вопросу о вероятности языка

На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).

Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.

Лекция 2. Регулярные выражения и конечные автоматы

Выложил слайды (lecture2.pdf) и примеры программ (lecture2.zip).

На лекции обсуждались

  • регулярные выражения и их практическое применение;
  • детерминированные и недетерминированные конечные автоматы;
  • их преимущества и недостатки;
  • регулярные языки;
  • связь конечных автоматов, регулярных выражений и регулярных языков.

Задания для тренировки

  • Написать аналог ELIZA
  • Реализовать конечный автомат для распознавания всех русских числительных
  • Спроектировать КА для дат: March 12, the 22nd of November, Christmas
  • Расширить предыдущий автомат относительными датами: yesterday, tomorrow, a week from tomorrow, the day before yesterday, three weeks from Saturday, next Monday, ...