По просьбам присутствовавших сегодня на семинаре, выкладываю шаблон класса SentimentAnalyzer.py. В последней строчке написано как из этого шаблона получить Baseline_1.
class SentimentAnalyzer:
#constructor (optional)
def __init__(self):
None
#trainer of classifier (mandatory)
def train(self, training_corpus):
# train your classifier here
self.classifier = None
#returns sentiment score of input text (mandatory)
def getClasses(self, texts):
#Write your code instead of next line
return ['neutral' for iter in texts] # Baseline 1
Внимание, чтобы была возможность самостоятельно фильтровать данные, на вход функции train() подается тренировочный корпус в формате json, полученный примерно так:
Сдать экзамен или поставить полученную оценку в зачетку/ведомость можно приехав в ИСП РАН. Перед этим рекомендую написать мне письмо и договориться о времени. В университете я буду скорее всего только в январе.
В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула .
Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков) была равна .
В разделе 6.4 основного учебника приводится подробный вывод коэффициента . Всем интересующимся рекомендую заглянуть туда.
PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.
Первое занятие состоится в аудитории 612 в пятницу 4-го октября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.
Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.