Глубокое обучение для аудио

Страница курса

О курсе

Курс посвящен современным подходам глубокого обучения для обработки и анализа аудио. Особое внимание уделяется основам цифровой обработки сигналов, системам автоматического распознавания речи, синтезу речи и методам нейронной генерации аудио. Цель курса — познакомить студентов с передовыми техниками машинного обучения в области аудио и их практическими применениями.

Тематический план

  1. Цифровая обработка сигналов: Основы аудио, спектрограммы, STFT и классические методы предобработки аудио.
  2. Автоматическое распознавание речи I: Word Error Rate (WER), Connectionist Temporal Classification (CTC), Listen-Attend-Spell (LAS) и алгоритмы beam search.
  3. Автоматическое распознавание речи II: RNN-Transducer (RNN-T), архитектура Conformer, модель Whisper, языковые модели в ASR и Byte-Pair Encoding (BPE).
  4. Key-word Spotting (KWS): Детекция ключевых слов, компактные модели и потоковые KWS-системы.
  5. Синтез речи I: Архитектура Tacotron, модели FastSpeech и механизмы guided attention.
  6. Синтез речи II: Neural vocoders, включая WaveNet, Parallel WaveGAN и DiffWave для высококачественного синтеза аудио.
  7. Voice Conversion: Техники трансформации голоса и нейронные подходы к копированию голоса.
  8. Самообучение в аудио: Wav2Vec, HuBERT и другие self-supervised подходы для обучения представлений аудио.
  9. Неконтролируемое обучение в аудио: Кластеризация, обучение представлений и методы unsupervised анализа аудио.
  10. Генерация музыки с помощью нейронных сетей: AI-композиция музыки и техники генерации.

Лекции и семинары

Курс включает теоретические лекции и практические семинары с упражнениями по программированию. Рассматриваемые темы:

Cамостоятельная работа

4 домашних задания, охватывающих практические аспекты глубокого обучения в сфере аудио:

  1. Классификация и предобработка аудио: Фундаментальная обработка аудио и задачи классификации
  2. ASR с CTC: Реализация Connectionist Temporal Classification для распознавания речи
  3. ASR с RNN-T: Продвинутое распознавание речи с использованием архитектуры RNN-Transducer
  4. Синтез речи: Построение систем text-to-speech на основе FastPitch

Оценивание

Каждое домашнее задание дает 2 балла + итоговый тест на 2 балла. Максимальный балл: 4×2 + 2 = 10 баллов.

Требуемые знания

Основы цифровой обработки сигналов, фундаментальные знания машинного обучения, глубокое обучение с PyTorch и базовое понимание моделирования последовательностей.