Итак, курс завершился в первый раз. Оставляйте отзывы, пожелания для улучшения и свои идеи для будущих курсов в комментариях.
All posts by Денис Турдаков
Билеты к экзамену
Готовы билеты к экзамену (скачать в pdf).
- Задачи обработки текста. Многозначность при обработке текста. Проблема понимания
- Регулярные выражения
- Конечные автоматы, распознавание языка с помощью КА
- Регулярные языки и конечные автоматы. Построение КА для регулярных выражений
- Модель N-грамм. Оценка вероятности высказывания
- Модель N-грамм. Сглаживание (Лапласа и Откат)
- Модель N-грамм. Оценка качества. Тренировочный и проверочный корпуса
- Задача определения частей речи. Существующие подходы
- Использование скрытой марковской модели для определения частей речи
- Скрытые марковские модели. Вероятность последовательности. Прямой алгоритм
- Скрытые марковские модели. Наиболее правдоподобное объяснение. Алгоритм Витерби
- Модели классификации. Наивный байесовский классификатор
- Модели классификации. Логистическая регрессия
- Модели классификации. Модель максимальной энтропии
- Модели классификации. Марковская модель максимальной энтропии
- Типы грамматик. Грамматика составляющих. Грамматика зависимостей. Категориальная грамматика
- Контекстно-свободные грамматики. КС грамматики и регулярные языки. Банк деревьев.
- Синтаксический разбор. Разбор сверху вниз и снизу вверх
- Синтаксический разбор. Алгоритм Кока-Янгера-Касами (CKY parsing). Эквивалентность КС грамматик
- Фрагментирование
- Стохастические контекстно-свободные грамматики. Разрешение синтаксической многозначности
- Моделирование языка. Обучение стохастических КС грамматик
- Вероятностная версия алгоритма Кока-Янгера-Касами. Оценка качества
- Проблемы стохастический КС грамматик. Алгоритм Коллинза. Оценка качества
- Лексическая семантика. WordNet. Значения слов
- Разрешение лексической многозначности. Алгоритмы классификации. Самонастройка. Методы оценки качества
- Разрешение лексической многозначности. Методы основанные на словарях и тезаурусах. Варианты алгоритма Леска. Методы оценки качества
- Семантическая близость слов. Подходы на основе тезаурусов. Методы оценки качества
- Семантическая близость слов. Подходы на основе статистик. Методы оценки качества
- Вопросно-ответные системы. Общая архитектура. Обработка запроса
- Вопросно-ответные системы. Общая архитектура. Извлечение фрагментов текста
- Вопросно-ответные системы. Общая архитектура. Обработка ответа
- Автоматическое реферирование. Общая архитектура
- Машинный перевод. Классические подходы
- Статистический машинный перевод. Модель зашумленного канала. Модель перевода на основе фраз. Выравнивание фраз (если слова выровнены). Декодирование
- Статистический машинный перевод. Выравнивание слов. Модель IBM Model 1
- Статистический машинный перевод. Выравнивание слов. Тренировка моделей выравнивания
- Статистический машинный перевод. Методы оценки качества. BLUE
Лекция 9. Машинный перевод
Выложил слайды к девятой лекции. На лекции рассматриваются
- Классические подходы к машинному переводу
- Статистический машинный перевод
- Модель зашумленного канала
- Модель перевода на основе фраз
- Выравнивание слов. Модель IBM Model 1
- Тренировка моделей выравнивания
- Декодирование
- Методы оценки качества. Метрика BLUE
Кто самый умный
Есть множество способов "взломать" систему тестирования:
- узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),
- расширить тренировочный набор всеми доступными произведениями автора и обучиться на них,
- еще всякие способы...
Лекция 8. Вопросно-ответные системы и автоматическое реферирование
Выложил слайды к восьмой лекции. Темы рассмотренные на лекции:
- Вопросно-ответные системы
- Обработка запроса
- Извлечение фрагментов текста
- Обработка ответа
- Системы автоматического реферирования
- Отбор контента
- Упорядочение информации
- Переконструирование предложений
Последний срок сдачи задания
Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос интересует и тех, кто не ходит на лекции, напишу здесь.
Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя граница (0.578313).
Студенты, допущенные к экзамену, могу улучшать свои решения до начала экзамена, то есть до 18.00 9 декабря. Перед экзаменом, я расскажу как работают лучшие методы, и после этого уже не будет иметь смысла учитывать модификации программ.
После экзамена система закрыта не будет и желающие смогут продолжить соревнование.
Лекция 7. Лексическая семантика
Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).
- Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
- WordNet и его применение
- Задача разрешения лексической многозначности (Word Sense Disambiguation)
- Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
- Алгоритмы, основанные на тезаурусах и словарях
- Подход, основанный на самонастройке (bootstrapping)
- Методы оценки алгоритмов
- Нижняя и верхняя оценки точности и полноты алгоритмов
- Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
- Некоторые современные направления лексической семантики
Чат бот
Лекция 6. Статистические методы синтаксического анализа
Доступны слайды шестой лекции. Рассмариваются
- Стохастические контекстно-свободные грамматики (СКС)
- Применение СКС к разрешению синтаксической многозначности и моделированию языка
- Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
- Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
- Алгоритм Коллинза (Collins 1999)
- Методы оценки алгоритмов статистического синтаксического разбора
- В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.
Лекция 5. Контекстно-свободные грамматики и синтаксический анализ
Доступны слайды лекции 5. На лекции обсуждались
- некоторые особенности грамматики естественных языков;
- наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
- алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
- фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.