🦍 ЭВОЛЮЦИЯ АЛГОРИТМОВ: ПАЛЕХ 👉 КОРОЛЁВ 👉 YATI В ЯНДЕКСЕ

👉 Эволюция алгоритмов ранжирования Яндекса: Палех ⤏ Королёв ⤏ YATI. Что менялось в процессе? Презентация: , чатик: 1. Палех: - Deep Structured Semantic Model. - Учёт запроса и заголовка документа. Использует: Буквенные триграммы (〖3“ד 10〗^4), слова 〖(10〗^6), биграммы слов 〖(10〗^6). - Только для 150 «лучших» документов. 2. Королёв: - Та же основа, что и в алгоритме Палех (DSSM). - Частичный учёт текста (важные зоны). - Появляются стримы: запросный индекс для URL клики. - «На 2 уровня» ранжирования глубже: 200 000 документов. 3. YATI: - Принципиально новая архитектура нейросетей-трансформеров. - Больше стримов: анкор-лист, запросный индекс для URL по кликам. - Большая полнота данных в учёте текста. Тексты до 10 предложений учитываются целиком. = Нюансы в YATI: обучение и фичи = 1. Переформулировки и «пред-обучение на клик». База из 1 миллиарда переформулировок: [первичная фраза] ⤏ нет клика ⤏ [новая фраза]. Модель учится предсказывать вероятность клика. 2. Оценки толокеров. На втором этапе используются «более дешевые и простые оценки» толокеров (Яндекс.Толока). 3. Оценки асессоров. Далее для обучения используются экспертные (асессорские) оценки релевантности. 4. Данные, подаваемые на вход: - Текст запроса. - Расширение запроса (синонимы, доп. слова). - «Хорошие» фрагменты документа. - Стримы для документа: анкор-лист, запросный индекс для документа (даже не показы, а клики по запросам). Спикер: Дмитрий Севальнев из Пиксель Тулс.
Back to Top