Александр Абрамов - RLHF for retrieval based NLP system
- Как мы используем retrieval для ведения диалога
- Из каких компонент состоит наша диалоговая система
- Улучшение retrieval свойств на уровне embeddings:
- а. Критик подход selfchat arena.
- б. Классик PPO
- Выводы: влияние на метрики моделей (таблица с метриками до/после RLHF)
- Развитие. Интересные подходы:
- InstructOR как развитие нашего multitask: retrieval, IR, qa, sentiment etc.
- Оркестрация компонент NLP системы с MultiArmed bandits.
Data Fest 2023:
Трек “Instruct Models“:
Наши соц.сети:
Telegram:
Вконтакте:
2 views
227
88
1 month ago 01:30:27 5
Исчезновение.
Приключения Киностудия Горького 1977 г.
3 months ago 00:05:45 1
группа БУТЫРКА - Не трогай осень [Official HD Remastered Video]