Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных| Технострим

Самые значимые и интересные доклады от наших партнеров - известных отраслевых конференций, теперь доступны на канале “Технострим“. У нас вы найдете 5-10 лучших докладов с прошедших конференций для программистов и разработчиков. Доклады Moscow Python 2018. Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных Павел Тарасов (ЦИАН) Руководитель отдела машинного обучения ЦИАН, кандидат физ.-мат. наук, ассистент на кафедре дискретной математики ФИВТ МФТИ. Одно из самых важных в работе data scientist’а и аналитика - уметь быстро проверять гипотезы. Есть много информации, курсов, конкурсов, как построить хорошую модель. Но кому будет нужна ваша модель, если на ее построение уйдут месяцы? А если вы не сможете быстро из модели собрать прототип? Бывают простые гипотезы: * Есть ли нужные данные? * Как их загрузить из другого источника? * Достаточно ли их, и корректны ли они? * Можно ли на них обучить модель, каково ее качеств
Back to Top