Основные алгоритмы обучения с подкреплением SARSA и Q-learning // Демо-занятие курса Reinforcement Learning

На занятии мы разберем: - что такое обучение с подкреплением и чем оно принципиально отличается от других подходов машинного обучения; - что такое функция ценности состояния и функция ценности действия-состояния, как они связаны между собой и как помогают нашему агенту учиться; - уравнение Беллмана - основное уравнение в обучении с подкреплением; - метод SARSA - метод итеративного обучения агента; - метод Q-learning - метод итеративного оптимального обучения агента. Занятие будет полезно начинающим специалистам по машинному обучению, которые стремятся расширить свой набор навыков и инструментов обучением с подкреплением. На практической части мы на Python “с нуля“ без использования каких-либо фреймворков реализуем два алгоритма обучения с подкреплением и убедимся, что наш агент успешно обучается. «Reinforcement Learning» - Преподаватель: Игорь Стурейко - (к.ф.-м.н.) Teamlead, главный инженер Дополнительные материалы: Пройдите опрос по итогам мероприятия - Следите за новостями проекта: - Telegram: - ВКонтакте: - LinkedIn: - Хабр:
Back to Top