Машинное обучение 3

Александр Дьяконов

Машинное обучение

Акт третий

О курсе

Основная задача программы – ознакомить студентов с теоретическими основами и основными принципами машинного обучения: с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных.
Особое внимание в курсе уделяется вопросам предобработки и подготовки данных, генерации и селекции признаков, разведочному анализу данных. В курсе много примеров и практических советов. Кроме классических тем, уделяется время анализу сложных сетей, методам интерпретации данных и моделей.

Команда курса

Александр Дьяконов

Лектор

Филипп Никитин

Семинарист

Анастасия Белозерова

Семинарист

Программа курса

Обзор DL

Простейшая нейросеть – 1 нейрон.
Функции активации (линейная, пороговая, сигмоида, гиперболический тангенс, softmax, LeakyReLU, ELU, Maxout).
Функциональная выразимость нейрона.
Теорема об универсальной аппроксимации.
Сеть прямого распространения.
Обучение.
Функции ошибки.
Производные на компьютере.
Проблема затухания градиента.
Обратное распространение градиента.

Борьба с переобучением в нейронных сетях.
Нормировки (Normalization of Data).
Инициализация весов (Xavier initialization).
Верификация – ранний останов (Early Stopping).
Мини-батчи (mini-batches) / Batch-обучение.
Продвинутая оптимизация (стохастический градиент с моментом (momentum), метод Нестерова, Adagrad, RMSprop, Adam, AdaDelta).
Зашумление.
Регуляризация + Weight Decay. Max-norm-регуляризация.
Оптимизаторы.
Dropout. Inverted Dropout. DropConnect.
Обрезка градиентов (Gradient clipping). Батч-нормализация (Batch normalization).
Расширение обучающего множества (Data Augmentation). Аугментация: Mixup.
Ансамбль нейросетей.
Диагностика проблем с НС.
Кривые ошибок.
Настройка темпа обучения.
Transfer Learning.
Упрощение НС (Pruning).
Layer Normalization.
Оптимизация гиперпараметров.
Практические советы

Что такое изображение.
Линейный подход к классификации на несколько классов.
Свёрточные нейронные сети (ConvNet, CNN).
Что такое свёртка (Convolution).
Отступ (Padding).
Шаг (stride).
Реализация свёртки.
Разреженные взаимодействия (sparse interactions).
Pooling (агрегация, субдискретизация / subsampling).
Устройство слоя свёрточной НС, мотивация.
Перевод тензора в тензор.
Смысл свёрток 1×1.
Какие бывают свёртки: Group Convolutions.
Какие бывают свёртки: Depth-wise separable convolution

Основные архитектуры свёрточных сетей:

LeNet,
AlexNet,
VGG,
GoogLeNet,
ResNet,
Inception-v4,
SENet,
Network in Network (NiN),
Deep Networks with Stochastic Depth,
FractalNet,
Fractal of FractalNet DenseNets,
SqueezeNet,
ResNeXt,
HyperNets,
MobileNet,
EfficientNet,
SqueezeNet,
ShuffleNet,
WideResNets.
Применение CNN.
ResNet: почему работает.

Задачи с изображениями:

Классификация,
Локализация,
Детектирование,
Сегментация,
Преобразование изображений,
Восстановление объектов.

Классификация изображений – почему нетривиальная задача, решение, проблемы.

Детектирование объектов:

R-CNN, Spatial Pyramid Pooling (SPP-net),
Fast R-CNN,
Faster R-CNN,
YOLO,
SSD.
Selective Search.

Метрики качества.

Non Maximum Suppression (NMS).

Сегментация объектов:

Mask R-CNN.
Feature Pyramid Networks (FPN).

Детектирование объектов: R-FCN.

FCOS: Fully Convolutional One-Stage Object Detection.

Семантическая сегментация.
Elastic Transform.
Классические методы сегментации.
Полностью свёрточная сеть – Fully Convolutional Network (FCN).
FCN: восстановление изображения, обратные операции. U-Net.
«Тирамису» = DenseNet + U-Net.
TernausNet.
PSP-Net = Pyramid Scene Parsing Network.
Расширенные свёртки (Dilated convolutions / Atrous Convolutions), DeepLabv1/2/3. SharpMask: Top to Down Refinement.
Сегментация объектов (Instance segmentation). Mask R-CNN.
Panoptic Feature Pyramid Networks.
RetinaNet. V-Net.
Модели для сегментации. UNet + FPN. BlendMask: SOTA 2020.

Зачем наблюдать?
За чем можно наблюдать в NN?
Стандартные средства в признаковых пространствах.
Анализ активации нейронов.
Чувствительность к удалению (Occlusion sensitivity).
«Saliency maps» – градиенты по входу.
«guided back-propagation» ~ градиенты по входу.
Анализ отдельных нейронов.
Анализ отдельных нейронов: оптимизационный подход.
Генерация изображений: восстановление из признаков.
Генерация текстур.
Генерация пейзажей.
Стилизация изображений.
Быстрая стилизация.
Причина шахматных сеток на изображениях.
Дистилляция данных.
Мягкая дистилляция данных.

RNN (базовый блок).
RNN: обучение.
RNN: как решать задачи классификации.
LSTM.
Забывающий гейт (Forget Gate).
Входной гейт (Input Gate).
Обновление состояния (Cell update).
Выходной гейт (Output Gate).
Gated Recurrent Unit (GRU).
Метод форсирования учителя (teacher forcing).
Scheduled sampling.
Двунаправленные (Bidirectional) RNN.
Глубокие (Deep) RNN.
Глубокие двунаправленные RNN.
Многонаправленные RNN.
Пиксельные RNN.
Рекурсивные (Recursive Neural Networks) НС.
Exploding / Vanishing gradients.
Особенности регуляризации в RNN: Dropout.
Особенности регуляризации в RNN: Batchnorm.
MI (Multiplicative Integration).
Интерпретация LSTM: Sentiment neuron.
Применение RNN.

attention / self- attention – матричная запись.
Transformer: Основная идея «Parallelized Attention».
Transformer: виды внимания.
Особенности обучения трансформера.
BERT = Bidirectional Encoder Representations from Transformers.
RoBERTa: A Robustly Optimized BERT Pretraining Approach.
SpanBERT. ALBERT = A Lite BERT.
T5: Text-To-Text Transfer Transformer.
ELECTRA = Efficiently Learning an Encoder that Classifies Token Replacements Accurately.

Автокодировщики (Auto-encoders).
Глубокие автокодировщики. Denoising Autoencoder.
Сокращающие автокодировщики – Contractive Autoencoders (CAE).
Предобучение с помощью автокодировщика (раньше так делали).
Sparse Coding.
Context Encoders.
Использование RBM.
Глубокие RBM (Deep Boltzmann Machines).
SOM – Самоорганизующиеся карты Кохонена.
Сжатие.
Генеративная модель.
Проблема оценки плотности.
Решения для оценки плотности.
Авторегрессионные модели.
Masked Autoencoder for Distribution Estimation (MADE).
Masked Temporal (1D) Convolution. Masked Spatial (2D) Convolution: PixelCNN, PIXELCNN++, PixelSNAIL, PixelRNN. Masked Attention + Convolution. Поток (Glow): real NVP, Glow.
Авторегрессионные потоки (Autoregressive Flows)

Генеративная модель.
Variational Autoencoders (VAE).
Variational Bayesian Inference.
Reparametrizaton trick.
Векторная арифметика.
Conditional VAE (CVAE).
Ladder Variational Autoencoders.
Bidirectional-Inference Variational Autoencoder (BIVA).
Vector Quantised-Variational AutoEncoder (VQ-VAE).
VQ-VAE-2. VAE: Image Colorization.
VAE: Forecasting from Static Images.
Adversarial Autoencoder.

Generative Adversarial Networks (GAN).
Генератор и дискриминатор.
Что могут GAN.
GAN: обучение – min-max-игра.
Настройка GAN.
Least Square GAN.
Wasserstein GAN (WGAN).
WGAN-GP.
Energy-Based GAN (EBGAN).
Deep Convolutional Generative Adversarial Networks (DCGAN).
Условные состязательные сети (сGAN).
Pix2pix c условными состязательными сетями (сGAN).
Проблема отсутствия выборки - CycleGAN.
BiGAN (Bidirectional).
BigGAN: Генерация изображений / интерполяция.
SAGAN (Self-Attention Generative Adversarial Networks).
CAN: Creative Adversarial Networks. ProGAN (NVIDIA).
InfoGAN.
Условные GANы (Conditional GANs).
Coupled GANs.
Как оценивать качество (сгенерированные картинки).

Self-Supervised Learning: pretext task, downstream task.
Predicting (spatial) context.
Predicting image rotation.
Exemplar.
Головоломка (Jigsaw).
Кластеризация (DeepCluster).
Контекстные кодировщики (Context Encoder) / image inpainting.
Раскраска изображений (image colorization).
Расщеплённые автокодировщики (Split-brain autoencoders).
Сегментация, порождённая движением (motion segmentation prediction).
Разметка окружающими звуками (ambient sounds).
Подсчёт примитивов (counting visual primitives).
Multi-task Self-Supervised Visual Learning.
Augmented Multiscale Deep InfoMax (AMDIM).
Deep InfoMax (DIM).
Invariant Information Clustering (IIC).
Contrastive Predictive Coding.
CPCv2 - Large Scale CPC on ImageNet.
Momentum Contrast (MoCo).
SimCLR.
Исследование архитектур для самообучения.

Поиск изображений: Сиамские сети, Triplet Loss.
Сиамские сети: Person Re-Identification.
Сиамские сети: Street-View to Overhead-View Image Matching.
Сиамские сети: Intermediate merging.
Сиамские сети: for viewpoint invariance.
Сиамские сети: for cross-modal embedding. FaceNet.