Математические методы анализа текстов
О курсе
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Тематический план
- Предобработка, выделение признаков и классификация.
- Векторные представления слов.
- Задача разметки последовательностей (tagging). Модель Linear-CRF.
- Модели рекуррентных нейронных сетей: RNN, LSTM.
- Машинный перевод. Подход Sequence-to-sequence. Механизм внимания.
- Архитектура transformer.
- Задача языкового моделирования.
- Статистические и нейросетевые языковые модели.
- Задача генерации естественного языка.
- Контекстуальные векторные представления слов.
- Transfer learning в NLP.
- Модель BERT и её модификации.
- Задача классификации текстов.
- Тематическое моделирование и его приложения.
Самостоятельная работа
В рамках курса предполагается четыре практических задания и экзамен. Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл.
Оценивание
0.7 * баллы за дз / 5 + 0.3 * баллы за экзамен.
Требуемые знания
Машинное обучение, основы глубинного обучения, языка программирования Python.