Анализ сетей и текстов

О курсе

Рассматриваются методы и технологии, применяющиеся в интеллектуальном анализе данных (ИАД, data mining) и базирующиеся на понятиях сходства, близости, аналогии. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД, среди которых основное внимание в курсе уделено классификации, восстановлению регрессии, кластеризации, восстановлению пропущенных данных. Представлена теоретическая основа для построения, реализации и анализа широкого спектра моделей и методов ИАД. Рассмотрены методы построения и вычисления функций сходства, согласование сходства на различных множествах объектов, синтез новых способов сравнения объектов на базе уже имеющихся. Рассмотрен комплекс технологий, предназначенный для эффективного представления и обработки метрической информации вычислительными системами. Исследуются эвристические модели данных, описывающие исходную информацию об объектах распознавания на основе различных реализаций понятия сходства. Рассматриваются задачи, требующие решения при реализации указанных моделей. Изучаются специальные структуры данных и алгоритмы, позволяющие эффективно настраивать и использовать изучаемые модели.

Тематический план

Основные подходы к заданию сходства.
Классическое определение метрики и метрического пространства.
Локальные метрики и их продолжение на всё пространство.
Геометрические подмножества общих метрических пространств.
Примеры метрических пространств.
Классификация функций сходства.
Характеристики метрик.
Преобразования метрик.
Реализация метрик.
Принцип самоорганизации.
Метрики на конечных множествах.
Разложение МК по конечным системам МК.

Самостоятельная работа

Нет.

Оценивание

Устный экзамен по материалам курса.

Требуемые знания

Машинное обучение, алгоритмы и структуры данных.