Математические методы анализа текстов

Страница курса

О курсе

Данный курс знакомит студентов с базовыми и современными методами обработки естественного языка (Natural Language Processing, NLP). Включая темы от классической обработки текста и статистических языковых моделей до новейших методов глубокого обучения, курс направлен на формирование практических навыков и теоретических знаний для построения и анализа современных NLP-систем.

Программа курса

  1. NLP Basics: tokenization, text preprocessing, text representations
  2. Text & Language Models: embeddings, n-gram models, RNNs, LSTMs, seq2seq, attention
  3. Transformers & LLMs: Transformer, pre-training (MLM/CLM), prompting, fine-tuning, PEFT
  4. Scaling & Optimization: distributed training, MoE, KV-cache, Flash Attention, efficient inference, quantization
  5. Retrieval & Agents: Information Retrieval, RAG, agent-based systems
  6. Post-training: alignment, RLHF, DPO

Формы контроля и работы

В рамках курса предполагается три практических задания и экзамен. Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. И устный экзамен, и домашнее задание являются обязательными частями курса, для его успешного завершения необходимо сдать обе части.

Оценивание

Итоговая оценка = 0,3 × (оценка за устный ответ) + 0,7 × (средний балл за три практических задания)

Предварительные требования