В этом семестре на ВМК будет читаться спецкурс "Автоматический синтаксический анализ текстов на естественном языке". С деталями и лектором я не знаком, но судя по описанию, там будет рассмотрен синтаксический уровень анализа намного более подробно, чем в лекциях 5 и 6. Так что, если Вы интересуетесь темой, рекомендую послушать. Кроме того, лектор - руководитель группы семантического анализа технологического департамента компании ABBYY.
Коллекция для тестирования
Выкладываю коллекцию документов, на которых проводилось тестирование: testingSet.zip.
Для тестирования использовался скрипт Main.py.
Feedback
Итак, курс завершился в первый раз. Оставляйте отзывы, пожелания для улучшения и свои идеи для будущих курсов в комментариях.
Hotfix к практическому заданию
Так как некоторые из участников не сумели совладать с codecs.open, то теперь можно послать письмо в следующем формате:
имя_системы
имя_участника
plain
Магическое слово "plain" отключит в вашем решении codecs.open, и файлы будут открываться при помощи стандартного open, как это реализовано в baseline.
Билеты к экзамену
Готовы билеты к экзамену (скачать в pdf).
- Задачи обработки текста. Многозначность при обработке текста. Проблема понимания
- Регулярные выражения
- Конечные автоматы, распознавание языка с помощью КА
- Регулярные языки и конечные автоматы. Построение КА для регулярных выражений
- Модель N-грамм. Оценка вероятности высказывания
- Модель N-грамм. Сглаживание (Лапласа и Откат)
- Модель N-грамм. Оценка качества. Тренировочный и проверочный корпуса
- Задача определения частей речи. Существующие подходы
- Использование скрытой марковской модели для определения частей речи
- Скрытые марковские модели. Вероятность последовательности. Прямой алгоритм
- Скрытые марковские модели. Наиболее правдоподобное объяснение. Алгоритм Витерби
- Модели классификации. Наивный байесовский классификатор
- Модели классификации. Логистическая регрессия
- Модели классификации. Модель максимальной энтропии
- Модели классификации. Марковская модель максимальной энтропии
- Типы грамматик. Грамматика составляющих. Грамматика зависимостей. Категориальная грамматика
- Контекстно-свободные грамматики. КС грамматики и регулярные языки. Банк деревьев.
- Синтаксический разбор. Разбор сверху вниз и снизу вверх
- Синтаксический разбор. Алгоритм Кока-Янгера-Касами (CKY parsing). Эквивалентность КС грамматик
- Фрагментирование
- Стохастические контекстно-свободные грамматики. Разрешение синтаксической многозначности
- Моделирование языка. Обучение стохастических КС грамматик
- Вероятностная версия алгоритма Кока-Янгера-Касами. Оценка качества
- Проблемы стохастический КС грамматик. Алгоритм Коллинза. Оценка качества
- Лексическая семантика. WordNet. Значения слов
- Разрешение лексической многозначности. Алгоритмы классификации. Самонастройка. Методы оценки качества
- Разрешение лексической многозначности. Методы основанные на словарях и тезаурусах. Варианты алгоритма Леска. Методы оценки качества
- Семантическая близость слов. Подходы на основе тезаурусов. Методы оценки качества
- Семантическая близость слов. Подходы на основе статистик. Методы оценки качества
- Вопросно-ответные системы. Общая архитектура. Обработка запроса
- Вопросно-ответные системы. Общая архитектура. Извлечение фрагментов текста
- Вопросно-ответные системы. Общая архитектура. Обработка ответа
- Автоматическое реферирование. Общая архитектура
- Машинный перевод. Классические подходы
- Статистический машинный перевод. Модель зашумленного канала. Модель перевода на основе фраз. Выравнивание фраз (если слова выровнены). Декодирование
- Статистический машинный перевод. Выравнивание слов. Модель IBM Model 1
- Статистический машинный перевод. Выравнивание слов. Тренировка моделей выравнивания
- Статистический машинный перевод. Методы оценки качества. BLUE
Лекция 9. Машинный перевод
Выложил слайды к девятой лекции. На лекции рассматриваются
- Классические подходы к машинному переводу
- Статистический машинный перевод
- Модель зашумленного канала
- Модель перевода на основе фраз
- Выравнивание слов. Модель IBM Model 1
- Тренировка моделей выравнивания
- Декодирование
- Методы оценки качества. Метрика BLUE
ЧАВО по практическому заданию
На странице с описанием практического задания появился список часто (а, точнее, непрерывно) задаваемых вопросов, прочтение которого настоятельно рекомендуется.
Кто самый умный
Есть множество способов "взломать" систему тестирования:
- узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),
- расширить тренировочный набор всеми доступными произведениями автора и обучиться на них,
- еще всякие способы...
Лекция 8. Вопросно-ответные системы и автоматическое реферирование
Выложил слайды к восьмой лекции. Темы рассмотренные на лекции:
- Вопросно-ответные системы
- Обработка запроса
- Извлечение фрагментов текста
- Обработка ответа
- Системы автоматического реферирования
- Отбор контента
- Упорядочение информации
- Переконструирование предложений
Последний срок сдачи задания
Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос интересует и тех, кто не ходит на лекции, напишу здесь.
Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя граница (0.578313).
Студенты, допущенные к экзамену, могу улучшать свои решения до начала экзамена, то есть до 18.00 9 декабря. Перед экзаменом, я расскажу как работают лучшие методы, и после этого уже не будет иметь смысла учитывать модификации программ.
После экзамена система закрыта не будет и желающие смогут продолжить соревнование.