Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.
Детали этого классификатора будут обнародованы после окончания соревнования.
Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.
Для лучшего понимания, рекомендую следующую литературу.
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).
Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.
Реализовать конечный автомат для распознавания всех русских числительных
Спроектировать КА для дат: March 12, the 22nd of November, Christmas
Расширить предыдущий автомат относительными датами: yesterday, tomorrow, a week from tomorrow, the day before yesterday, three weeks from Saturday, next Monday, ...