Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС224. Преподаватель: Александр Пославский
00:00:07:00 Обучение с учителем
00:01:16:21 Обучение без учителя
00:02:26:25 Обучение с подкреплением
00:03:28:24 Терминология: агент, функция награды, состояние среды
00:04:51:09 Отличие от supervised learning
00:07:46:14 Классические примеры задач RL
00:14:33:19 Особенности и сложности RL. Низкая скорость обучения (sample efficiency)
00:14:35:14 Низкая скорость обучения (sample efficiency)
00:17:02:10 Сложное проектирование функции награды
00:21:08:10 Невоспроизводимость обучения
00:22:59:08 Датасеты
00:23:13:24 Gym
00:25:27:03 Пространства действий и наблюдений
00:29:10:28 Взаимодействие со средой
00:29:56:13 Создание своей среды
00:42:42:21 Markov property
00:44:45:26 Markov process
00:50:08:11 Определение
00:50:12:23 Матрица состояний
00:50:39:14 Награда (Reward)
00:53:51:09 Суммарная награда (Return)
00:58:04:14 Дисконтирование (discounting)
01:04:31:29 Марковский процесс принятия решений
01:06:58:18 Формальное описание MDP
01:08:11:25 Пример
01:11:22:10 Нахождение лучшей последовательности переходов
01:13:10:20 Value function
01:15:12:21 Определение Value Function
01:15:33:05 Уравнение Беллмана
01:15:34:10 Определение Optimal Value Function
01:15:40:01 Bellman equation
01:17:47:09 Нахождение оптимальной политики Беллмана
01:17:50:13 Политика не обязана быть оптимальной
01:21:51:14 Policy iteration
01:27:19:02 Value Iteration
01:42:28:08 Temporal difference (TD) learning
01:44:54:25 Q-Learning
01:50:16:15 Deep Q-Learning
02:01:55:16 Loss
02:01:57:27 Approximate Q-learning
02:01:58:05 Алгоритм обучения
02:02:11:17 Experience replay
02:09:35:14 Terget network
02:12:42:01 Пример c CartPole DQN
02:13:53:28 Building a network
02:15:42:05 Experience Replay Buffer and Target Networks
02:15:53:22 TD-Loss
02:15:57:04 Main loop
02:20:06:24 Дальнейшие идеи
02:21:39:05 Другие улучшения DQN
02:22:42:10 Double DQN
02:23:59:09 Альтернативные подходы
Ссылка на лекцию:
VK:
Telegram:
Сайт:
11 views
10
1
8 years ago 02:11:09 260
Открытое занятие: 15 аркан (зависимость)
9 years ago 00:52:01 85
Иконоведение, занятие 15
11 years ago 00:40:39 19
Красный университет. 2-е отд. Занятие
5 years ago 01:20:00 79
Литургика, занятие 15
10 years ago 01:39:08 478
15 АРКАН | Открытое занятие ()
10 years ago 00:59:37 124
Тестирование, занятие №15
5 years ago 01:31:09 18
TSLab. Курс №1 - Занятие 15
5 years ago 00:17:03 1
Занятие №15
4 years ago 02:15:01 17
Занятие №15 «Обучение с подкреплением»
2 years ago 00:26:00 1
Занятие 15
8 years ago 01:29:47 2
Санскрит. Занятие 15
7 years ago 01:56:37 1
ProInsider 2.0 занятие №15
1 year ago 02:15:55 1
14 занятие 15 набор
5 years ago 01:27:34 22
TSLab. Курс №2 - Занятие 15
1 year ago 01:57:36 1
4 занятие 15 набор
6 years ago 01:55:43 194
Занятие 15. ЕГЭ по химии. Органическая химия
11 years ago 01:28:31 160
15 занятие. Крия йога. от 3
2 years ago 02:07:47 1
Обзор Шримад-Бхагаватам. Занятие 15
8 years ago 01:56:52 32
Подготовка к ЕГЭ по математике. Занятие 15. Неравенства