Внимание! Лекции 29 октября не будет. Встречаемся 5 ноября.
Хакатон по обработке текстов
Коллеги из Казани делают хакатон по обработке текстов: http://hackday2014.textocat.com/
Рекомендую поучаствовать.
Дедлайн в ближайшую среду
Напоминаю, в ближайшую среду (ночь со вторника на среду) первый дедлайн. Список студентов, не приступивших к сдаче практикума будет передан в учебную часть.
По многочисленным просьбам, на этой неделе количество попыток увеличено до 15.
Изменения в системе тестирования
В системе тестирования 1 октября произойдет 2 изменения:
- Изменился вход для функции train. Теперь в качестве training_corpus будет передаваться тренировочный корпус в виде, как он был в скачиваемом файле:
training_corpus = json.load(open(path_to_training_corpus))
Необходимо преобразовать корпус во входной формат классификатора самостоятельно. Это даст возможность фильтровать входные данные произвольным образом. Раньше при преобразовании оставались только те значения, которые были одинаково размечены всеми людьми. То есть, если три человека размечало текст и характеристику "Цены" отметили как позитивную только двое, то она не попадала в корпус.
- Использовалась F1-мера без параметров. Теперь будет использоваться F1-мера с параметром " average='micro' ". См. документацию scikit-learn.
Следующая лекция №3
Внимание! Следующая лекция состоится 1 октября. 17 и 24 сентября лекций не будет!
Обновление правил
Немного обновил правила. Изменился формат входных и выходных данных решения.
Лучшие решения весеннего практикума 2014 года
Выкладываю 5 решений весеннего практикума 2014 года, показавшие лучшие результаты по мере достоверности (accuracy):
Автор | Итоговый результат |
Константин Безденежных | 0.8050847458 |
Малков Максим | 0.7966101695 |
Гинатулина Светлана | 0.7951977401 |
Александров Никита | 0.7881355932 |
Ульянов Александр | 0.7768361582 |
Также выкладываю baseline 2, который в итоге показал 0.7062146894
Все решения можно скачать по ссылке: solutions.zip
Слайды к лекциям 2013 года
Лекция | Слайды |
---|---|
Лекция 1. Задачи обработки текстов | lecture1-2013 |
Лекция 2. Регулярные выражения и конечные автоматы | lecture2-2013 |
Лекция 3. Языковые модели и задача определения частей речи | lecture3-2013 |
Лекция 4. Контекстно-свободные грамматики и синтаксический анализ | lecture4-2013 |
Лекция 5. Статистические методы синтаксического анализа | lecture5-2013 |
Лекция 6. Лексическая семантика | lecture6-2013 |
Лекция 7. Вопросно-ответные системы и автоматическое реферирование | lecture7-2013 |
Лекция 8. Машинный перевод | lecture8-2013 |
Лекция 9. Распределенные методы обработки текстов | lecture9_2013 |
Предварительные итоги (7 мая 2014)
Итак, подходит к концу практикум. Студенты, набравшие 9 и более баллов, получают оценку "отлично". Все, кто набрал 5-8 баллов получают оценку "хорошо". За 2-4 бала будет выставляться оценка "удовлетворительно".
При желании в течении недели можно улучшить свою оценку, добрав недостающие баллы за счет дополнительной разметки сообщений (1 балл за 100 твитов, соблюдая начальный баланс (50/25/25)). Этим способом можно изменить только "хорошо" на "отлично" и "удовлетворительно" на "хорошо".
Оценки будут выставляться в среду 14 мая на 1 паре в аудитории 523.
Итоговые результаты:
баллы | доп. баллы | оценка | |
Алексиянц Александр Владимирович | 14 | отлично | |
Безденежных Константин Вячеславович | 39 | отлично | |
Иванишин Владислав Анатольевич | 8 | 1 | отлично |
Кондратьев Михаил Владимирович | 11 | отлично | |
Макаров Александр Евгеньевич | 5 | 4 | отлично |
Мамонтов Антон Юрьевич | 6 | 3 | отлично |
Пастух Денис Дмитриевич | 3 | удовл | |
Смородин Кирилл Андреевич | 17 | отлично | |
Сугаченко Екатерина Алексеевна | 20 | отлично | |
Ступин Андрей Андреевич | 9 | отлично | |
Татуев Антон Андреевич | 5 | хорошо | |
Тишевницкая Полина Николаевна | 6 | хорошо | |
Ульянов Александр Дмитриевич | 11 | отлично | |
Филипенко Максим Сергеевич | 16 | отлично | |
Черников Алексей Анатольевич | 8 | 1 | отлично |
Шарыгин Евгений Юрьевич | 3 | 2 | хорошо |
Щевьёва Светлана Михайловна | 11 | отлично | |
Ярошевский Денис Всеволодович | 4 | 1 | хорошо |
Александров Никита Анатольевич | 18 | отлично | |
Астахова Дарья Ильинична | 7 | 2 | отлично |
Борисова Татьяна Сергеевна | 8 | 1 | отлично |
Буланов Артём Андреевич | 14 | 2 | отлично |
Гинатулина Светлана Игоревна | 16 | отлично | |
Димитриев Станислав Олегович | 0 | неуд | |
Ермичев Александр Александрович | 8 | 1 | отлично |
Захаров Дмитрий Александрович | 5 | 4 | отлично |
Коноркин Иван Олегович | 2 | удовл | |
Косолапов Кирилл Александрович | 8 | 1 | отлично |
Мальков Максим Петрович | 37 | отлично | |
Пузров Глеб Владимирович | 3 | удовл | |
Сукманова Дарья Александровна | 10 | отлично | |
Шалаев Михаил Михайлович | 2 | 3 | хорошо |
Отключение серверов
С 20.00 пятницы 14 марта до 10.30 понедельника 17 марта будут отключены все серверы в связи с техническими работами в ИСП РАН. Задания в это время сдавать не получится.