All posts by Денис Турдаков

Исправлена ошибка в 3 лекции

В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула \sum_{i,j} p(w_n|w_i,w_j)=1 .

Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово w_n встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна 0 ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков)  была равна 1 .

В разделе 6.4 основного учебника приводится подробный вывод коэффициента \alpha . Всем интересующимся рекомендую заглянуть туда.

PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.

Слайды лекций 2012 года

Лекция Слайды
Лекция 1. Задачи обработки текстов  lecture1-2012.pdf
Лекция 2. Регулярные выражения и конечные автоматы  lecture2-2012.pdf
Лекция 3. Методы поиска словосочетаний  lecture3-2012.pdf
Лекция 4. Языковые модели и задача определения частей речи  lecture4-2012.pdf
Лекция 5. Контекстно-свободные грамматики и синтаксический анализ  lecture5-2012.pdf
Лекция 6. Статистические методы синтаксического анализа  lecture6-2012.pdf
Лекция 7. Лексическая семантика  lecture7-2012.pdf
Лекция 8. Вопросно-ответные системы и автоматическое реферирование  lecture8-2012.pdf
Лекция 9. Машинный перевод  lecture9-2012.pdf

Первая лекция в осеннем семестре 2013 года

Первое занятие состоится в аудитории 612 в пятницу 4-го октября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.

Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.

Итоги 2012 года

Итак, экзамен прошел, время подвести итоги.

На курс зарегистрировались 40 человек. Успешно завершили практическое задание и были допущены к экзамену 26 человек. Результаты экзамена:

По результатам практической части выкладываю top 9 лучших решений:

  1. zyxn52 (Кирилл Гаврилюк)
  2. nezabudka (Анна Потапенко)
  3. woxalex (Александр Сапатов)
  4. Esuqive (Виктория Петушкова)
  5. giz (Александр Акципетров)
  6. miryable (Татьяна Новикова)
  7. Yodikus (Владимир Марулин)
  8. tanunia (Татьяна Кривошеева)
  9. desa (мое простое решение)
Проверочный корпус доступен по ссылке: tpc-secret.zip.

 

Лекция 7. Лексическая семантика

Доступны слайды седьмой лекции. На лекции обсуждаются

Основные понятия лексической семантики

  • Слова и отношения между ними
  • Словари и тезаурусы

Вычислительная семантика

  • Разрешение лексической многозначности
  • Семантическая близость слов
  • Некоторые современные направления