Курс Deep Reinforcement Learning:
Сезон курсов:
В четвертой лекции:
Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями;
Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае;
Обсудили epsilon-жадные политики;
Вывили алгоритмы Monte-Carlo, SARSA и Q-learning
Наши соц.сети:
Telegram:
Вконтакте:
2 views
152
34
3 months ago 01:30:49 11
DRL Course | Introduction to Reinforcement Learning. Cross-Entropy Method