Моисеев Ярослав | Кластеризация сообщений абонентов, Various ML applications - Data Fest 2022

Спикер: Моисеев Ярослав Кластеризация сообщений пользователей чат-бота В этом докладе вы узнаете: • В чем заключается подход Sentence-transformers для получения эмбеддингов предложений • Какие есть недостатки у классических внутренних метрик, в том числе у силуэта • Какие внутренние метрики умеют корректно оценивать плохо разделимые кластеры несферической формы • Какой способ является лучшим для обработки шума при расчёте внутренних метрик • Какая модель эмбеддингов, пайплайн кластеризации и внутренняя метрика оказались лучшими в ходе экспериментов Таймкоды: 00:00 Вступление 00:23 Зачем кластеризовать сообщения пользователей чат-бота? 00:53 Как выглядит пайплайн кластеризации? 01:03 Какие существуют подходы получения эмбеддингов предложений? 01:13 В чем заключается подход Sentence-transformers? Cosine similarity loss и hard triplet loss. 2:43 Алгоритмы кластеризации. HDBSCAN и BIRCH. 3:37 Внешние и внутренние метрики кластеризации. 4:46 Недостатки классических внутренних метрик. Чем плох коэффициент силуэта? 5:04 Какие есть внутренние метрики для оценки качества кластеров произвольной формы? 5:48 Как понять какая внутренняя метрика лучше? 6:12 Что нам говорят сравнения внутренних метрик в статьях? 7:06 Какие есть способы сделать метрику устойчивой к наличию выбросов? 07:51 Схема и результаты первой части экспериментов. 9:18 Эксперименты. Модели Sentence-transformers. 9:35 Эксперименты. Ускорение кластеризации в 23 раза с CuML на GPU. 9:59 Схема второй части экспериментов. 11:02 Результаты экспериментов. 12:19 Визуализация эмбеддингов и сравнение алгоритмов детекции выбросов. HDBSCAN и IsolationForest. 12:51 Выводы. Ссылки из презентации: 1. P. Bojanowski et al. (2016), Enriching Word Vectors with Subword Information 2. D. Cer et al. (2018), Universal Sentence Encoder 3. M. Artetxe, H. Schwenk (2018), Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond 4. F. Feng et al. (2020), Language-agnostic BERT Sentence Embedding 5. N. Reimers, I. Gurevych (2019), Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 6. Introduction to Dense Text Representations - Part 2 7. 8. 9. P. Andritsos (2002), Data Clustering Techniques 10. 11. M. Halkidi and M. Vazirgiannis (2008), A density-based cluster validity approach using multi-representatives 12. D. Moulavi et al. (2014), Density-based clustering validation ~zimek/publications/SDM2014/ 13. L. Hu, C. Zhong (2019), An Internal Validity Index Based on Density-Involved Distance 14. D. Cheng et al. (2018), A Novel Cluster Validity Index Based on Local Cores 15. F. Boudane, A. Berrichi (2020), Gabriel graph based connectivity and density for internal validity of clustering 16. J.C. Rojas-Tomas et al. (2017), New internal index for clustering validation based on graphs, 17. S. Liang (2020), Cluster validity index for irregular clustering results 18. 19. 20. 21. 22. 23. 24. 25. Data Fest Online 2022: Хаб MegaFon: Трек Various ML applications: RecSys, MLOps, NLP, Physics, Geo: Наши соц.сети Telegram: Вконтакте: Twitter:

16 views

168