Математические методы анализа текстов

О курсе

Данный курс знакомит студентов с базовыми и современными методами обработки естественного языка (Natural Language Processing, NLP). Включая темы от классической обработки текста и статистических языковых моделей до новейших методов глубокого обучения, курс направлен на формирование практических навыков и теоретических знаний для построения и анализа современных NLP-систем.

Программа курса

NLP Basics: tokenization, text preprocessing, text representations
Text & Language Models: embeddings, n-gram models, RNNs, LSTMs, seq2seq, attention
Transformers & LLMs: Transformer, pre-training (MLM/CLM), prompting, fine-tuning, PEFT
Scaling & Optimization: distributed training, MoE, KV-cache, Flash Attention, efficient inference, quantization
Retrieval & Agents: Information Retrieval, RAG, agent-based systems
Post-training: alignment, RLHF, DPO

Формы контроля и работы

В рамках курса предполагается три практических задания и экзамен. Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. И устный экзамен, и домашнее задание являются обязательными частями курса, для его успешного завершения необходимо сдать обе части.

Оценивание

Итоговая оценка = 0,3 × (оценка за устный ответ) + 0,7 × (средний балл за три практических задания)

Предварительные требования

Теория вероятностей и математическая статистика
Машинное обучение
Python
Базовые знания в области NLP