Математические методы анализа текстов
О курсе
Данный курс знакомит студентов с базовыми и современными методами обработки естественного языка (Natural Language Processing, NLP). Включая темы от классической обработки текста и статистических языковых моделей до новейших методов глубокого обучения, курс направлен на формирование практических навыков и теоретических знаний для построения и анализа современных NLP-систем.
Программа курса
- NLP Basics: tokenization, text preprocessing, text representations
- Text & Language Models: embeddings, n-gram models, RNNs, LSTMs, seq2seq, attention
- Transformers & LLMs: Transformer, pre-training (MLM/CLM), prompting, fine-tuning, PEFT
- Scaling & Optimization: distributed training, MoE, KV-cache, Flash Attention, efficient inference, quantization
- Retrieval & Agents: Information Retrieval, RAG, agent-based systems
- Post-training: alignment, RLHF, DPO
Формы контроля и работы
В рамках курса предполагается три практических задания и экзамен. Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. И устный экзамен, и домашнее задание являются обязательными частями курса, для его успешного завершения необходимо сдать обе части.
Оценивание
Итоговая оценка = 0,3 × (оценка за устный ответ) + 0,7 × (средний балл за три практических задания)
Предварительные требования
- Теория вероятностей и математическая статистика
- Машинное обучение
- Python
- Базовые знания в области NLP