Выложены слайды пятой лекции.
Лекция 4. Языковые модели и задача определения частей речи
Доступны слайды четвертой лекции. Темы лекции:
- Модель N-грамм
- Оценка вероятности высказывания
- Сглаживание (Лапласа и Откат)
- Оценка качества. Тренировочный и проверочный корпуса
- Задача определения частей речи и существующие подходы к ее решению
- Алгоритм Витерби и поиск наиболее вероятной последовательности тэгов.
Исправление слайдов первой лекции
В слайды первой лекции закралась ошибка: были даны неправильные определения точности и полноты. Сейчас все исправлено.
Практическое задание
Доступна вся информация о практическом задании и система тестирования.
Лекция 3. Статистические методы поиска словосочетаний
Слайды третьей лекции доступны на сайте. Вопросы рассматриваемые на лекции:
- словосочетания и коллокации
- словосочетания в различных приложениях, в том числе в задаче выделения ключевых слов
- статистические методы поиска словосочетаний (частота, фильтрация по тэгам, мат. ожидание и дисперсия)
- применение статистических критериев для поиска словосочетаний (T-критерий Стьюдента, критерий Хи-квадрат, критерий отношения правдоподобия)
Лекция 2. Регулярные выражения и конечные автоматы
Доступны слайды второй лекции (lecture2.pdf). Рассматриваемые темы:
- формальные языки;
- регулярные выражения и их практическое применение;
- детерминированные и недетерминированные конечные автоматы;
- регулярные языки;
- связь конечных автоматов, регулярных выражений и регулярных языков.
Лекция 1. Задачи обработки текстов
Выложил слайды к первой лекции. На лекции рассматриваются
- Организационные вопросы
- Язык программирования Python
- Основные проблемы обработки текстов
Первое занятие в осеннем семестре 2012 года
Первое занятие состоится в аудитории П-6 в пятницу 28-го сентября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.
Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.
Спецкурс в осеннем семестре 2012 года
В осеннем семестре 2012 года спецкурс начнется предположительно 28 сентября. По сравнению с прошлым годом, будет добавлена лекция про поиск словосочетаний, а также обновятся все прошлогодние слайды. В этом году в качестве практического задания будем решать задачу извлечение ключевых слов из текста. Детали будут объявлены позднее.
Спецкурс по синтаксическому анализу
В этом семестре на ВМК будет читаться спецкурс "Автоматический синтаксический анализ текстов на естественном языке". С деталями и лектором я не знаком, но судя по описанию, там будет рассмотрен синтаксический уровень анализа намного более подробно, чем в лекциях 5 и 6. Так что, если Вы интересуетесь темой, рекомендую послушать. Кроме того, лектор - руководитель группы семантического анализа технологического департамента компании ABBYY.