В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула
.
Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово
встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна
) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков) была равна
.
В разделе 6.4 основного учебника приводится подробный вывод коэффициента
. Всем интересующимся рекомендую заглянуть туда.
PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.