Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.
Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:
1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.
Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.
Проект: разработка собственного выигрышного агента для игры в крестики-нолики.
2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.
Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.
Проект: разработка оптимизированной DQN для балансировки тележки.
3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.
Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.
Проект: расчет оптимальной стратегии игры в блекджек.
Теория по курсу включает:
Задачи машинного обучения и обучения с подкреплением
Метрики обучения с подкреплением
Проблема баланса эксплуатации и разведки
Цепь случайных процессов Маркова
Принцип и уравнение Беллмана
Методы Монте-Карло
Q-таблица и Q-обучение
Эпсилон-жадная стратегии
Эпсилон-жадная стратегия с убыванием
UCB-стратегия
Стратегия Томпсона
Создание и обучение Deep Q-Network
Кратковременная и долговременная память
Единая и разделенная политики