Yandex for ML - Машинное обучение. #20 Обучение с подкреплением. К.В. Воронцов, Школа анализа данных, Яндекс.
Процесс обучения представляется в виде игры агента со средой, в которой агент совершает действия, среда в ответ даёт премии, и агент должен корректировать свою стратегию принятия решений таким образом, чтобы максимизировать суммарную будущую премию. Задача имеет черты классификации и прогнозирования. В простейшем случае это задача выбора действия по накопленной статистике премий, называемая задачей о многоруком бандите. В более сложном случае на каждом шаге известно, в каком из состояний находится среда. Если состояние среды описывается вектором признаков, то для принятия решений возможно приспособить инкрементные методы классификации, а для оптимизации стратегии агента применять градиентные методы. Во всех случаях основным вопросом обучения с подкреплением остаётся компромисс «exploration-exploitation» между изучающими действиями и действиями, непосредственно нацеленными на получение премий.
1 view
1361
419
2 months ago 03:13:17 1
Самая красивая мелодия на свете🌿 восстановление нервной системы🍀ШИКАРНЫЙ СБОРНИК ПЕСЕН
2 months ago 00:53:43 33
ЭТО РАЗОРВЕТ СЕРДЦЕ. Нашли и оживили МОСКВИЧ моего ДЕДА / ВЕЧНАЯ ПАМЯТЬ
2 months ago 00:08:25 2
DIY 🎀 Посмотрите какие новогодние бантики. Готовимся к праздникам 🎀Getting ready for the New Year
3 months ago 00:02:37 1
Быстрый и вкусный ЖУЛЬЕН С КУРИЦЕЙ И ГРИБАМИ НА СКОВОРОДЕ. Рецепт от Всегда Вкусно!
3 months ago 00:08:23 1
Djeff-Z - Summer Nights
3 months ago 02:01:45 1
Что такое реальность?
3 months ago 00:18:31 1
Взял Смартфон за 8000 рублей - ОН УНИЖАЕТ IPHONE 16!? 🔥 Новинка Cubot KingKong ES
3 months ago 00:43:40 1
Самый прибыльный бизнес: история современного рабства
3 months ago 00:18:00 1
SUBtitles DIY Cord BAG on plastic canvas / crochet