Александр Дьяконов
Машинное обучение
Акт второй
О курсе
Основная задача программы - ознакомить студентов с теоретическими основами и основными принципами машинного обучения: с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных.
Особое внимание в курсе уделяется вопросам предобработки и подготовки данных, генерации и селекции признаков, разведочному анализу данных. В курсе много примеров из практики и практических советов. Кроме классических тем, в курсе уделяется время анализу сложных сетей, методам интерпретации данных и моделей.
Команда курса
Александр Дьяконов
Лектор
Камиль Сафин
Семинарист
Артём Попов
Семинарист
Владимир Бугаевский
Семинарист
Программа курса
Сложность алгоритмов, переобучение, смещение и разброс
Проблема обобщения

Переобучение

Недообучение

Сложность алгоритмов

Смещение и разброс

Способы борьбы с переобучением

Байесовский подход
Формула Байеса

Оптимальное решение задач классификации

Минимизация среднего риска

Наивный байес (naive Bayes)

Байесовский подход в машинном обучении

Метод максимального правдоподобия

+ Байесовский подход в примере

MAP

Особенности байесовского подхода

Байесовская теория для линейной регрессии

Логистическая регрессия

Байесовские точечные оценки

Байесовские интервальные оценки

RVM
Кластеризация
Задача кластеризации, типы кластеризации

k-средних (Lloyd's algorithm)

Обобщения k-means

Модельные задачи кластеризации

Affinity propagation: кластеризация сообщениями между точками

Сдвиг среднего (Mean Shift): обнаружение мод плотности

Иерархическая кластеризация (Hierarchical clustering)

Типы Linkage

Кластеризация на основе минимального остовного дерева

Спектральная кластеризация

DBSCAN

BIRCH

CURE

Генеративные модели

EM

Gaussian Mixture Model (GMM)
Обучение без учителя
Задачи UL

Понижение (сокращение) размерности

PCA

Нелинейное сокращение размерности

Kernel PCA

t-SNE

Устранение шума (Noise Reduction)

Генерация Данных (Data Generation)

Детектирование аномалий
Обнаружение выбросов и новизны (anomaly detection).

Понятие «выброс» и «новизна», «шум», «аномалия».

Приложения задачи обнаружения аномалий.

Методы обнаружения аномалий: статистические тесты, модельные тесты, итерационные методы, метрические методы, методы подмены задачи, методы машинного обучения (одноклассовый SVM, изолирующий лес, эллипсоидальные аппроксимации), ансамбли алгоритмов.
Ассоциативные правила
Основные термины АП

Apriori
Рекомендательные системы
Рекомендательные системы

Персонализация, онлайн и оффлайн рекомендации

Рекомендация по контенту (content based methods)

Коллаборативная фильтрация: GroupLens-алгоритм, SVD, SVD++, timeSVD++, адаптация SVD под социальные связи

One-class recommendation

Факторизационная машина, факторизационная машина с полями (FFM – field-aware factorization machine)

Простые методы рекомендаций: FPM – Frequent Pattern Mining

Knowledge-based Recommendations
Оценки среднего, вероятности и плотности. Весовые схемы
Определение среднего: среднее арифметическое, медиана, мода, среднее по А.Н. Колмогорову, среднее по Коши.

Многомерная медиана, среднее как решение оптимизационной задачи, борьба с выбросами

Оценка минимального контраста.

Оценка вероятности. Метод максимального правдоподобия. Сглаживание Лапласа.

Весовые схемы.

Кейс «зодиакальный скоринг»: объёмы выборок, устойчивость закономерностей.

Кейс «прогнозирование визитов покупателей супермаркетов и сумм их покупок»: матрицы визитов, оценка вероятности визитов пересчётом, весовые схемы в оценке вероятности визитов, прямой метод оценки вероятности, ансамблирование.

Восстановление плотности, весовые непараметрические методы, предсказывание с их помощью суммы покупок, решение совместной задачи оценивания.

Кейс «задача о пробках»: двумерное усреднение, сглаживание Надарая-Ватсона.
Искусство визуализации
Обоснование визуализации: квартет Энскомба

История анализа данных и инфографики: Джозеф Пристли, Уильям Плейфэр, Шарль Жозеф Минар, Флоренс Найтингейл, Джон Сноу.

Игра «Что за данные»?

Примеры плохих визуализаций: 3D-графика, диаграммы-пироги (pie).

Рекомендации по выбору масштаба графиков и шкалы, пояснительного текста, цвета и стиля изображений, представления численных величин, использования разных средств визуализации.

Цели визуализации.

Описательные статистики: среднее, характерные элементы, разброс значений, абсолютные вариации, относительные вариации, моменты, стандартизованные моменты.

Пример визуализаций описательных статистик. Исследование частей выборки (фолдов), визуализация важностей признаков, первичные действия при анализе признака.

Визуализация отдельных признаков: диаграммы, гистограммы, плотности распределения, выбор числа бинов, трансформации признаков.

Визуализация категориальных признаков: гистограммы, диаграммы-пироги и области, уточнение природы признака.

Визуализация пары признаков: корреляция, зависимость признаков, независимость признаков, типичные значения, выбросы, кластеры. Диаграмма рассеивания. Использования шума для визуализации. Сводные таблицы, треугольные зависимости.

Визуализации пары «вещественный признак» – «категориальный».

Сравнение с бенчмарком.

Визуализация «ответ алгоритма» – «ответ алгоритма». Визуализация «ответ алгоритма» – «признак». Деформации ответов и признаков. Residual plot.

Корреляции. 3D-визуализации. Dummy-визуализации. Проверка соответствия «train-test». Агрегация.
Функции ошибки / функционалы качества
Функции ошибки в задаче регрессии: средний модуль отклонения MAE(MAD), средний квадрат отклонения MSE, его производные: RMSE, коэффициент детерминации R2, вероятностное и невероятностное обоснование RMSE, функция Хьюбера, Logcosh, обобщения MAE и RMSE, процентные функции ошибок (SMAPE, MAPE, PMAD), ошибки, основанные на сравнении с бенчмарком (MRAE, REL_MAE, PB), нормированные ошибки (MASE), несимметричные ошибки, ошибки с точностью до порога, использование функций ошибок для генерации признаков.

Качество в задачах классификации: матрица ошибок / несоответствий

«Сonfusion Matrix», точность (Accuracy, MCE), ошибки 1 и 2 рода, полнота (Recall, TPR), специфичность (TNR), точность (Precision),FPR(False Positive Rate), F1-мера, Cohen's Kappa, Weighted kappa, Коэффициент Мэттьюса (MCC).

Качество в задачах бинарной классификации с ответом в виде вероятности, скоринговые ошибки: логистическая функция ошибки Log Loss, MSE, Misclassification Loss, Exploss; Hinge loss; AUROC, GINI (кривая Лоренца),

Качество в многоклассовых задачах: Hamming Loss, cross-entropy, Mean Probability Rate, MSE, MAE, усреднения, обобщения F-меры, сбалансированная точность (Balanced accuracy). Разные виды усреднения качества: макро, микро, весовое, по объектам.

Качество в задачах рекомендации: точность на первых n элементах, средняя точность на первых n элементах, MAP, Concordant – Discordant ratio, Mean Reciprocal Rank (MRR), Cumulative Gain, Discounted Cumulative Gain (DCG), nDCG, Expected reciprocal rank (ERR).

Редакторское расстояние.

Качество в задаче с целевыми значениями – интервалами: Коэффициент Жаккара (Jaccard), коэффициент Шимкевича-Симпсона (Szymkiewicz, Simpson), коэффициент Браун-Бланке (Braun-Blanquet), коэффициент Сёренсена (Sörensen), коэффициент Кульчинского (Kulczinsky), коэффициент Отиаи (Ochiai), меры включения.

Способы настройки на конкретные функции ошибки. Построение критерия расщепления для оптимизации AUC ROC. Задачи с интервальным признаком. Минимизация Root Mean Square Percentage Error (RMSPE) с помощью деформаций. Вывод формул градиентного спуска для основных методов и функций ошибок.
Подготовка данных
Фундаментальные свойства данных.

Виды данных.

Предобработка данных.

Очистка данных (Data Cleaning): аномалии/выбросы, пропуски, шум, некорректные значения.

Сокращение данных (Data Reduction): сэмплирование, сокращение размерности, отбор признаков, отбор объектов.

Трансформация данных (Data Transformation): переименование признаков, объектов, значений признаков, преобразование типов; кодирование значений категориальных переменных; дискретизация; нормализация; сглаживание; создание признаков; агрегирование; обобщение; деформация значений.

Интеграция данных.
Генерация признаков
Типы числовых признаков.

Контекстные признаки.

Служебные признаки.

Утечка в данных.

Странности в данных.

Использование EDA для генерации признаков.

Вещественные признаки.

Временные признаки (характеристики моментов времени, взаимодействие пары признаков, использование для других признаков, использование для генерации признаков, использование для уточнения задачи).

Географические (пространственные) признаки: Spatial Variables. (проекции на разные оси, кластеризация, идентификация, привязка, характеристики окрестности, анализ траекторий, деанонимизация данных, использование контекста и исследование странностей, генерация расстояний и использование для других признаков).

Обработка категориальных признаков