ML System Design с Валерием Бабушкиным | Выпуск 3 | Собеседование |
Ссылка на курс HARD ML:
По промокоду SD10 вы получите скидку 10% на курс.
Последняя (но не по значимости!) часть серии собеседований ML Design System.
Герой нового выпуска не такой опытный, как предыдущие соискатели, но уже едет работать в Snapchat в Лондоне. На собеседовании он будет решать задачи матчинга, входящие в блок Игоря Котенкова.
Учитесь Data Science с нами:
1:07:53 – прим. Игоря Котенкова:
Заметим единожды, но нижеописанный принцип пременим ко всем ML Design-собеседованиям.
Помимо прикидки объема данных полезно уточнить ожидаемое время работы пайплайна. Так, в первом видео серии ML System Design был рассмотрен вопрос выбора рекламных баннеров в ленте. Понятно, что суммарное время работы здесь измеряется 100-200 мс.
Пайплайн матчинга же, как следовало уточнить на этапе постановки задачи, обычно работает в оффлайне, и, к примеру, может запускаться раз в неделю (или раз в день).
На основе этого, а также понимания объема данных, можно выбирать класс моделей и отвечать на вопросы вроде: «Стоит ли тут использовать BERT или тяжелее TF-IDF ничего не пролезет?»
0:00 Введение и представление
6:53 Задание на матчинг
8:47 Ответ
12:10 Первый комментарий
17:20 Второй комментарий
20:45 Третий комментарий
25:49 Возвращение к истокам и новый подход к решению
31:31 Предположение о данных и процессе обучении модель
34:11 Описание сущности данных
39:22 Четвертый комментарий
41:12 Плюсы и минусы моделей обучения
46:51 Переход к метрикам
50:35 Пятый комментарий
57:03 Очень важный вопрос
1:01:31 Шестой комментарий