Артём Сорокин
Reinforcement Learning
О курсе
Цель курса "Обучение с подкреплением" познакомить студентов с основными формализмами и идеями области обучения с подкреплением, но в тоже время дать студентам возможность собственноручно реализовать некоторые из state-of-the-art алгоритмов глубокого RL. Курс будет состоять из двух частей. В первой части слушатели познакомятся с теоретическими основами RL на игрушечных примерах. Во второй части мы сосредоточимся на нейросетевых методах, которые позволяют применить RL для куда более сложных задач.

Обучение с подкреплением – это обучение тому, что делать, т.е. как отобразить ситуации на действия, чтобы максимизировать численный сигнал – вознаграждение. Обучаемому агенту не доступна информация о том, какие действия являются правильными; он должен сам понять, какие действия приносят максимальное вознаграждение на основе собственного опыта. В наиболее интересных и трудных случаях действия могут влиять не только на непосредственное вознаграждение, но и на следующую ситуацию, а значит, на все последующие вознаграждения. Эти две характеристики - поиск методом проб и ошибок и отложенное вознаграждение - значительно отличают RL задачу от классической задачи обучения с учителем.
Команда курса
Сорокин Артём
Лектор
Павел Темирчев
Семинарист
Сергей Иванов
Ассистент
Программа курса
Введение
* Задача обучения с подкреплением
* Чем RL задача отличается от задачи SL
* Exploration-Exploitation dilemma
* Credit assignment problem
* Distributional Shift
* Определением MDP
* Табличный CEM
Многорукие Бандиты
* Задача многоруких бандитов
* Исследуй, затем используй
* Регрет
* Upper Confidence Bounds
* Контекстуальные бандиты
* Thompson Sampling
Динамическое программирование
* Policy Evaluation
* Policy Iteration
* Value Iteration
* Generalized Policy Iteration
Табличное обучение с подкреплением
* Monte-Carlo Method
* Temporal Difference Learning
* SARSA
* Q-Learning
* TD-lambda
Глубокое обучение с подкреплением и DQN
* Deep Q-Network
* Double DQN
* Dueling DQN
* Prioritized Replay Buffer
* Rainbow
Градиент по стратегии 1
* Policy Gradient derivation
* Reducing Variance with Baselines
* Actor-Critic Methods
* Advantage Actor-Critic
* Parallel Advantage Actor-Critic
Градиент по стратегии 2
* Importance Sampling
* Natural Policy Gradients
* Trust Region Policy Optimization
* Proximal Policy Optimization
Память в обучении с подкреплением
* Partially Observable MDP
* RNN with off-policy Algorithms
* RNN with on-policy Algorithms
* Transformers for memory Learning in RL
* Episodic memory
Задача непрерывного управления
* Deep Deterministic Policy Gradients
* Twin Delayed DDPG
* Soft-Actor Critic
Планирование
* Monte-Carlo Tree Search
* Learning a model for planning
* MuZero
Перенос знаний и Мета-обучение
* Transfer learning in RL
* Progressive Networks
* Sim2Real and Domain Randomization
* Meta Reinforcement Learning
* Meta-RL with Recurrent Policies
* Gradient-Based Meta Learning
Проблема исследования и использования
* Random Network Distillation
* Curiosity
* Intrinsic Curiosity Module
* NGU
Distributional подход в обучении с подкреплением
* Оценка распределения вместо точечной оценки ценности
* C51
* DQN с квантильной регрессией
* IQN
Формирование итоговой оценки
Оценка выставляется по десятибальной шкале.
Планируется 6 заданий. Задания приносят 2 или 1 балла в зависимости от сложности.
Если задание сдается в течение двух недель после дедлайна, то ценность задания составляет 80% изначальной, если позже то только 60%.

В конце курса будет необязательный тест общей стоимостью в 2 балла.
Связь с преподавателями
Любые вопросы по курсу можно (и нужно) задавать в telegram-канал курса. Доступ к каналу можно получить по ссылке


Домашние задания
Материалы лекций