Машинное обучение 1

Александр Дьяконов

Машинное обучение

Акт первый

О курсе

Основная задача программы – ознакомить студентов с теоретическими основами и основными принципами машинного обучения: с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных.
Особое внимание в курсе уделяется вопросам предобработки и подготовки данных, генерации и селекции признаков, разведочному анализу данных. В курсе много примеров и практических советов. Кроме классических тем, уделяется время анализу сложных сетей, методам интерпретации данных и моделей.

Команда курса

Александр Дьяконов

Лектор

Артём Попов

Семинарист

Владимир Бугаевский

Семинарист

Петр Болотин

Семинарист

Александр Краснов

Семинарист

Программа курса

Структура курса, отчётность, лектор, цель курса.

Ключевые слова:

Наука о данных (Data Sciense)
Статистика (Statistics)
Искусственный интеллект (Artificial Intelligence)
Анализ данных (Data Mining)
Машинное обучение (Machine learning)
Большие данные (Big Data)

Обучение с учителем (с размеченными данными / метками)
Целевая функция
Объект
Метка
Классификация
Прогнозирование
Пространство объектов
Признаковое пространство
Извлечение признаков
Визуализация задач
Функции ошибки
Эмпирический риск
Обучающая выборка
Задачи оптимизации в обучении
Модель алгоритмов
Алгоритм
Обучение
Обобщающая способность
Схема решения задачи машинного обучения
Как решаются задачи
Обучение без учителя / c неразмеченными данными
Обучение c частично размеченными данными
Трансдуктивное обучение
Обучение с подкреплением
Структурный вывод
Активное обучение
Онлайн-обучение
Transfer Learning
Multitask Learning
Feature Learning
Проблемы в машинном обучении
Примеры модельных задач

Бритва Оккама
Теорема о бесплатном сыре
Футбольный оракул
Сведения из твимс
Задание распределений
Средние и отклонения
Условная плотность, маргинализация и обуславливание
Точечное оценивание
Оценка максимального правдоподобия
Дивергенция Кульбака-Лейблера
Ковариация и корреляция
Оценка плотности
Гистограммного подхода
Парзеновский подход
Нормальное распределение
Центральная предельная теорема
Теория информации
Проклятие размерности
Сингулярное разложение матрицы (SVD)
Матричное дифференцирование

Методы безусловной оптимизации
Методы нулевого порядка
Методы первого порядка
Методы второго порядка
Градиентный спуск
Наискорейший градиентный спуск
Стохастический градиентный спуск
Обучение: Пакетное, онлайн, по минибатчам
Метод градиентного спуска в машинном обу-чении
Стационарные точки
Метод Ньютона
Квази-ньютоновские методы
Оптимизация с ограничениями

Метрические алгоритмы (distance-based)
Ближайший центроид (Nearest centroid algorithm)
Подход, основанный на близости
kNN в задаче классификации
kNN в задаче регрессии
Обоснование 1NN
Ленивые (Lazy) и нетерпеливые (Eager) алгоритмы
Весовые обобщения kNN
Различные метрики: Минковского, Евклидова, Манхэттенская, Махалонобиса, Canberra distance, Хэмминга, косинусное, расстояние Джаккарда, DTW, Левенштейна
Приложения метрического подхода: нечёткий матчинг таблиц, Ленкор, в DL, классификация тек-стов
Эффективные методы поиска ближайших соседей
Регрессия Надарая-Ватсона

Проблема контроля качества
Выбора модели (Model Selection) в широком смысле
Правила разбиения выборки
Отложенный контроль (held-out data, hold-out set)
Скользящий контроль (cross-validation)
Бутстреп (bootstrap)
Контроль по времени (оut-of-time-контроль)
Локальный контроль
Кривые обучения (Learning Curves)
Перебор параметров

Линейная регрессия
Обобщённая линейная регрессия
Проблема вырожденно-сти матрицы
Регуляризация. Основ-ные виды регуляризации
Гребневая регрессия (Ridge Regression)
LASSO (Least Absolute Selection and Shrinkage Operator)
Elastic Net
Селекция признаков
Ошибка с весами
Устойчивая регрессия (Robust Regression)
Линейные скоринговые модели в задаче бинарной классификации
Логистическая регрессия
Probit-регрессия
Многоклассовая логисти-ческая регрессия
Линейный классифика-тор
Персептрон
Оценка функции ошибок через гладкую функцию
SVM

Проблема линейности
Полиномиальная модель
Ядерные методы (Kernel Tricks)
Примеры ядер
Использование в SVM
Использование в регрессии
Кернализация
Математика ядер
RBF, RBF-сети

Деревья решений (СART)
Предикаты / ветвления
Ответы дерева
Критерии расщепления в задачах классификации: Missclassification criteria, энтропийный, Джини
Критерии остановки при построении деревьев
Проблема переобучения для деревьев
Подрезка (post-pruning)
Классические алгоритмы построения деревьев решений: ID3, C5.0
Важности признаков
Проблема пропусков (Missing Values)
Категориальные признаки
Сравнение: деревья vs линейные модели

Ансамбли алгоритмов: примеры и обоснование
Комитеты (голосование) / усреднение
Бэгинг
Кодировки / перекодировки ответов, ECOC
Стекинг и блендинг
Бустинг: AdaBoost, Forward stagewise additive modeling (FSAM)
«Ручные методы»
Однородные ансамбли

Универсальные методы
Случайный лес
OOB (out of bag)
Настройка параметров методов
Области устойчивости
Важности признаков
Boruta
ACE
Близости, вычисленные по RF
Extreme Random Trees

Градиентный бустинг над деревьями
Итерация градиентного бустинга
Наискорейший спуск
Эвристика сокращения – Shrinkage
Стохастический градиентный бустинг
Продвинутые методы оптимизации
Современные реализации градиентного бустинга
Встроенные способы контроля
Параметры градиентного бустинга
Case: Задача скоринга (TKS)
Калибровка
Case: предсказание ответов на вопросы

Проблема обобщения
Переобучение
Недообучение
Сложность алгоритмов
Смещение и разброс
Способы борьбы с переобучением

Формула Байеса
Оптимальное решение задач классификации
Минимизация среднего риска
Наивный байес (naive Bayes)
Байесовский подход в машинном обучении
Метод максимального правдоподобия
+ Байесовский подход в примере
MAP
Особенности байесовского подхода
Байесовская теория для линейной регрессии
Логистическая регрессия
Байесовские точечные оценки
Байесовские интервальные оценки
RVM

Задача кластеризации, типы кластеризации
k-средних (Lloyd's algorithm)
Обобщения k-means
Модельные задачи кластеризации
Affinity propagation: кластеризация сообщениями между точками
Сдвиг среднего (Mean Shift): обнаружение мод плотности
Иерархическая кластеризация (Hierarchical clustering)
Типы Linkage
Кластеризация на основе минимального остовного дерева
Спектральная кластеризация
DBSCAN
BIRCH
CURE
Генеративные модели
EM
Gaussian Mixture Model (GMM)

Задачи UL
Понижение (сокращение) размерности
PCA
Нелинейное сокращение размерности
Kernel PCA
t-SNE
Устранение шума (Noise Reduction)
Генерация Данных (Data Generation)