Александр Абрамов - RLHF for retrieval based NLP system

- Как мы используем retrieval для ведения диалога - Из каких компонент состоит наша диалоговая система - Улучшение retrieval свойств на уровне embeddings: - а. Критик подход selfchat arena. - б. Классик PPO - Выводы: влияние на метрики моделей (таблица с метриками до/после RLHF) - Развитие. Интересные подходы: - InstructOR как развитие нашего multitask: retrieval, IR, qa, sentiment etc. - Оркестрация компонент NLP системы с MultiArmed bandits. Data Fest 2023: Трек “Instruct Models“: Наши соц.сети: Telegram: Вконтакте:

2 views

227