Глубокое обучение для аудио
О курсе
Курс посвящен современным подходам глубокого обучения для обработки и анализа аудио. Особое внимание уделяется основам цифровой обработки сигналов, системам автоматического распознавания речи, синтезу речи и методам нейронной генерации аудио. Цель курса — познакомить студентов с передовыми техниками машинного обучения в области аудио и их практическими применениями.
Тематический план
- Цифровая обработка сигналов: Основы аудио, спектрограммы, STFT и классические методы предобработки аудио.
- Автоматическое распознавание речи I: Word Error Rate (WER), Connectionist Temporal Classification (CTC), Listen-Attend-Spell (LAS) и алгоритмы beam search.
- Автоматическое распознавание речи II: RNN-Transducer (RNN-T), архитектура Conformer, модель Whisper, языковые модели в ASR и Byte-Pair Encoding (BPE).
- Key-word Spotting (KWS): Детекция ключевых слов, компактные модели и потоковые KWS-системы.
- Синтез речи I: Архитектура Tacotron, модели FastSpeech и механизмы guided attention.
- Синтез речи II: Neural vocoders, включая WaveNet, Parallel WaveGAN и DiffWave для высококачественного синтеза аудио.
- Voice Conversion: Техники трансформации голоса и нейронные подходы к копированию голоса.
- Самообучение в аудио: Wav2Vec, HuBERT и другие self-supervised подходы для обучения представлений аудио.
- Неконтролируемое обучение в аудио: Кластеризация, обучение представлений и методы unsupervised анализа аудио.
- Генерация музыки с помощью нейронных сетей: AI-композиция музыки и техники генерации.
Лекции и семинары
Курс включает теоретические лекции и практические семинары с упражнениями по программированию. Рассматриваемые темы:
- Лекции: Фундаментальные концепции, архитектуры моделей и теоретические основы
- Семинары: Практическая реализация с использованием PyTorch, предобработка аудио, обучение и оценка моделей
Cамостоятельная работа
4 домашних задания, охватывающих практические аспекты глубокого обучения в сфере аудио:
- Классификация и предобработка аудио: Фундаментальная обработка аудио и задачи классификации
- ASR с CTC: Реализация Connectionist Temporal Classification для распознавания речи
- ASR с RNN-T: Продвинутое распознавание речи с использованием архитектуры RNN-Transducer
- Синтез речи: Построение систем text-to-speech на основе FastPitch
Оценивание
Каждое домашнее задание дает 2 балла + итоговый тест на 2 балла. Максимальный балл: 4×2 + 2 = 10 баллов.
Требуемые знания
Основы цифровой обработки сигналов, фундаментальные знания машинного обучения, глубокое обучение с PyTorch и базовое понимание моделирования последовательностей.