В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула .
Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков) была равна .
В разделе 6.4 основного учебника приводится подробный вывод коэффициента . Всем интересующимся рекомендую заглянуть туда.
PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.