Где взять данные для предобучения LLM — Анатолий Потапов, Тинькофф

Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой. Наш телеграм: Дайджесты, статьи и анонсы митапов: Жизнь команда изнутри и вакансии по направлениям: Блог на Хабре: #ai #ml #rl #тинькофф
Back to Top