ИИИ Спортивный анализ данных - 7 лекция - + конспект от YandexGPT
ИИИ Спортивный анализ данных - 7 лекция - конспект от YandexGPT
00:12 Физическая регрессия и классификация
• Обсуждение методов работы с выбросами и пропусками данных, включая физическую регрессию и классификацию.
• Упоминание о создании таблицы с моделями и их применением для разных данных.
02:38 Дискретизация и кодирование категорий
• Обсуждение процесса дискретизации вещественных чисел в категории для моделей, которые могут потерять информацию.
• Примеры использования бинаризации и униформы для разбиения на категории.
09:00 Трансформация функций и кодирование слов
• Обсуждение использования функции Pandas для преобразования функций в числовые представления.
• Примеры работы с категориальными данными и их кодированием.
19:23 Мультибенойзер и кодирование категорий
• Видео обсуждает использование мультибенойзера для решения задач классификации с несколькими классами.
• Упоминается инструмент для кодирования категорий, который позволяет преобразовывать слова в цифры для обучения модели.
31:16 Разбиение на тренировочный и тестовый наборы
• Объясняется важность разбиения данных на тренировочный и тестовый наборы для оценки качества модели.
• Указывается на необходимость указания размера тренировочного набора и случайного разбиения на классы.
37:28 Регрессия и метрики
• Обсуждается использование регрессии для решения задач с числовыми значениями.
• Упоминаются метрики, такие как MSE, для оценки качества модели.
44:17 Дисбаланс классов и метрики классификации
• В видео обсуждаются метрики классификации, такие как точность и полнота, которые помогают решать проблемы дисбаланса классов.
• Точность учитывает только целевой класс, а полнота следит за всеми классами.
50:09 Примеры использования метрик
• В медицине, например, точность может быть важнее, если нужно предсказать болезнь и лечить только больных.
• В случае профилактики, полнота может быть более подходящей, так как важно вылечить всех.
55:08 Метрика “лук лосс“
• “Лук лосс“ является средним гармоническим между точностью и полнотой и может быть более подходящим для балансирования между ними.
56:04 Метрики классификации
• Видео обсуждает различные метрики классификации, включая точность, полноту, лог-лосс и другие.
• Лог-лосс имеет преимущество в том, что он учитывает градации классов и может быть дифференцируемым.
01:02:07 Искусственный дисбаланс и метрики
• Видео демонстрирует, как искусственный дисбаланс влияет на метрики классификации, особенно на специфичность и точность.
• Обсуждаются различные варианты классификации, включая бинарный, макро и микро.
01:11:43 Confusion Matrix и визуализация
• Видео показывает, как Confusion Matrix может быть полезным инструментом для визуализации ошибок классификации.
• Обсуждается, как можно использовать этот инструмент для анализа и улучшения классификации.
01:15:11 Управление балансом между точностью и полнотой
• В видео обсуждается, как управлять балансом между точностью и полнотой, используя функцию “предсказание“ и “непредсказание“.
• Это позволяет изменять порог отсечки, чтобы определить, какие объекты считать принадлежащими к определенному классу.
01:18:24 Использование кривой ROC для сравнения моделей
• Кривая ROC может быть полезна для сравнения нескольких моделей, так как она дает оценку качества классификатора.
• Площадь под кривой ROC может быть использована для определения качества модели.
01:20:36 Изменение баланса между точностью и полнотой
• В видео объясняется, как можно изменять баланс между точностью и полнотой, меняя порог отсечки и bias.
• Это позволяет определить, при каком порошке у модели будет самый высокий скок.
01:24:32 Сохранение данных в DataFrame
• В видео обсуждаются способы сохранения данных в DataFrame, включая использование функции “трансформер“ и “группирующие столбцы“.
• Это позволяет сохранить данные в виде отдельных групп и работать с ними в дальнейшем.