Порождающие модели машинного обучения
О курсе
Курс посвящен современным генеративным моделям машинного обучения. Особое внимание уделяется свойствам различных классов генеративных моделей, их взаимосвязям, теоретическим предпосылкам и методам оценки качества. Цель курса - познакомить студента с широко используемыми передовыми методами построения порождающих моделей.
Тематический план
- Введение в генеративное моделирование. Постановка задачи. Задача минимизации дивергенций. Авторегрессионное моделирование.
- Авторегрессионные модели (WaveNet, PixelCNN). Основы байесовского вывода. Модели скрытых переменных. Вариационная нижняя оценка (ELBO).
- EM-алгоритм, амортизированный вывод. Градиенты ELBO, репараметризация. Вариационный автокодировщик (VAE).
- Недостатки VAE. Коллапс апостериорного распределения VAE. Техники ослабления декодера. Выборка по значимости для ELBO. Якобиан и теорема о замене переменных.
- Модели нормализующих потоков. Прямая и обратная KL дивергенции. Линейные потоки (Glow).
- Авторегрессионные потоки (гауссовский и обраный гауссовский поток). Слой связи (RealNVP). Связь нормализующих потоков и VAE.
- Дискретные данные, непрерывная модель. Дискретизация модели (PixelCNN++). Равномерная и вариационная деквантизации (Flow++). Теорема об операции над ELBO. Оптимальное априорное распределение в VAE. Потоки в априорном распределении VAE.
- Потоки в априорном и апостериорном распределении VAE. Неявные генеративные модели без оценки правдоподобия. Модель генеративных состязательных сетей (GAN). Теорема об оптимальности GAN.
- Проблемы обучения GAN моделей (затухающие градиенты, коллапс мод). KL дивергенция vs JS дивергенция. VAE с неявным энкодером. Топологические особенности обучения GAN моделей. Расстояние Вассерштейна. Дуальность Канторовича-Рубинштейна. GAN Вассерштейна (WGAN).
- Модель WGAN с градиентным штрафом. Модель WGAN со спектральной нормализацией. Вариационная минимизация f-дивергенций. Оценивание качества неявных моделей.
- Оценивание качества неявных моделей (Inception score, FID, Precision-Recall, truncation trick). VAE с дискретным скрытым пространством.
- Векторная квантизация, сквозной градиент (VQ-VAE). Гумбель-софтмакс трюк (DALL-E). Нейронные обыкновенные дифференциальные уравнения. Метод сопряженных функций.
- Непрерывные во времени нормализационные потоки (FFJORD). Несмещенная оценка следа матрицы. Основы стохастических дифференциальных уравнений. Уравнение Колмогорова-Фоккера-Планка и динамика Ланжевена. Методы оценивания score функции.
- Модели оценки score функции (NCSM). Гауссовский диффузионый процесс. Диффузионная генеративная модель (DDPM).
Cамостоятельная работа
6 домашних работ, каждая содержит как теоретические задания, так и практические.
Оценивание
Каждая домашняя работа дает 13 баллов + экзамен на 26 баллов. Финальная оценка: (количество баллов / 8) - 2.
Требуемые знания
Статистика, машинное обучение, глубокое обучение, элементы байесовского вывода.