Спортивный анализ данных - + конспект от YandexGPT
Спортивный анализ данных - конспект от YandexGPT
00:02 Обсуждение результатов и ошибок в работах студентов.
09:11 Градиентный бустинг и NLP
• Обсуждение градиентного бустинга и его применения в решении задач.
• Упоминание о том, что каждый алгоритм должен быть слабым, чтобы приближаться к ответу плавно.
• Обсуждение ограничений и оптимизации скорости работы алгоритмов.
• Упоминание о том, что в градиентном бустинге каждый следующий алгоритм улучшает результат предыдущего.
12:35 Бустинг и его принципы
• Бустинг - это метод машинного обучения, который использует несколько слабых моделей для улучшения качества предсказаний.
• Бустинг начинается с обучения первой модели, которая предсказывает ошибки на основе входных данных.
• Затем, на основе этих ошибок, обучается следующая модель, которая предсказывает ошибки, которые первая модель совершила.
• Этот процесс повторяется для всех моделей, и в итоге получается кривая, которая умеет разделять два класса.
19:30 Градиентный бустинг
• Градиентный бустинг основан на идее градиентного спуска, где алгоритм пытается найти глобальный минимум ошибки.
• В случае регрессии, градиентный бустинг сводится к вычислению производной функции ошибки и ее минимизации.
• В случае классификации, градиентный бустинг использует функцию логарифмического правдоподобия для предсказания ошибок.
• В обоих случаях, градиентный бустинг может быть реализован с использованием различных моделей машинного обучения.
25:06 Градиентный бустинг
• В видео объясняется, как работает градиентный бустинг, алгоритм, который улучшает предсказания, полученные от предыдущих деревьев.
• В случае регрессии, градиентный бустинг корректирует старые параметры, вычитая ошибки из старого вектора и добавляя их с параметром H, который является шагом обучения.
28:53 Улучшение алгоритма
• В видео обсуждаются попытки улучшить градиентный бустинг, включая использование дополнительной регуляризации и штрафов за количество листьев в дереве.
• Также предлагается использовать под капотом другую функцию для деревьев, которая проверяет, не превышает ли она порог, и обрезает деревья, если это происходит.
33:35 Преобразование текста в векторы
• В видео обсуждаются различные подходы к преобразованию текста в векторы, включая понижение или повышение регистра, удаление нерелевантных символов и разбиение текста на отдельные токены.
• Также обсуждаются методы частичного разделения текста на части речи для повышения качества классификации.
37:23 Удаление стоп-слов и частотных слов
• В видео обсуждается процесс удаления стоп-слов и частотных слов из текста.
• Стоп-слова - это слова, которые не несут смысла и встречаются очень часто.
• Частотные слова - это слова, которые встречаются редко, и их удаление может привести к потере информации.
39:31 Векторизация текста
• После удаления стоп-слов и частотных слов, текст превращается в вектор слов.
• Векторизация текста может быть выполнена с использованием частотного подхода, тематического моделирования или дистрибутивной семантики.
42:17 Частотный подход
• Частотный подход - это простой метод, который учитывает частоту встречаемости слов в тексте.
• Он создает словарь из всех слов в тексте и присваивает каждому слову номер.
• Затем каждое слово в тексте заменяется на номер, соответствующий его позиции в словаре.
45:03 TF-IDF
• TF-IDF (частота в тексте и обратная частота в документах) - это более сложный метод, который учитывает частоту встречаемости слова в конкретном тексте и его распространенность в документах.
• TF-IDF позволяет отбросить слова, которые встречаются часто, но не сильно, и не встречаются во всех документах.
49:44 Кластеризация и семантика
• В видео обсуждается использование кластеризации для определения семантики текста.
• Кластеризация - это процесс отнесения слова или документа к определенному классу или кластеру с разными вероятностями.
• Это позволяет учитывать различные темы и контексты, в которых может использоваться слово.
• Например, слово “рецепт“ может относиться к кулинарии или медицине, в зависимости от контекста.
52:57 Алгоритмы кластеризации
• В видео обсуждаются различные алгоритмы кластеризации, включая LC (линейный кластер) и FastText.
• LC дает более мягкое распределение вероятностей, в то время как FastText работает с граммами слов, что помогает в классификации.
55:07 Нейронные сети и векторы
• В видео также обсуждаются нейронные сети и векторы, которые используются для обучения и предсказания слов.
• Векторы учитывают все возможные встречаемости слов и могут быть использованы для проведения математических операций для получения ожидаемых результатов.
57:56 Примеры использования векторов
• В видео приводятся примеры использования векторов для предсказания слов, таких как “король“ и “женщина“, и получения ожидаемых результатов, таких как “королева“.
• Однако, автор не успевает показать все примеры и обещает сделать это в следующем видео.