Курс Deep Reinforcement Learning 2023:
Сезон курсов :
В седьмой лекции:
Продолжаем рассматривать MDP с бесконечным пространством состояний и действий
Обсуждается Deterministic Policy Gradient теорему и выводим DDPG и TD3
Рассматриваем Soft Policy Iteration и выводим SAC
Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета.
Наши соц.сети:
Telegram:
Вконтакте:
Канал с вакансиями в telegram:
Канал с апдейтами по курсам:
Как попасть в чат сообщества ODS Mattermost:
1 view
264
80
3 months ago 01:30:49 11
DRL Course | Introduction to Reinforcement Learning. Cross-Entropy Method