АРТЕМ СОРОКИН
Reinforcement learning
О курсе
Цель курса "Обучение с подкреплением" познакомить студентов с основными формализмами и идеями области обучения с подкреплением, но в тоже время дать студентам возможность собственноручно реализовать некоторые из state-of-the-art алгоритмов глубокого RL. Курс будет состоять из двух частей. В первой части слушатели познакомятся с теоретическими основами RL на игрушечных примерах. Во второй части мы сосредоточимся на нейросетевых методах, которые позволяют применить RL для куда более сложных задач.

Обучение с подкреплением – это обучение тому, что делать, т. е. как отобразить ситуации на действия, чтобы максимизировать численный сигнал – вознаграждение. Обучаемому агенту не доступна информация о том, какие действия являются правильными; он должен сам понять, какие действия приносят максимальное вознаграждение на основе собственного опыта. В наиболее интересных и трудных случаях действия могут влиять не только на непосредственное вознаграждение, но и на следующую ситуацию, а значит, на все последующие вознаграждения. Эти две характеристики - поиск методом проб и ошибок и отложенное вознаграждение - значительно отличают RL задачу от классической задачи обучения с учителем.


Команда курса
Артем Сорокин
Лектор
Павел Термичев
Семинарист
Сергей Иванов
Ассистент