Обработка данных на Apache Airflow в Yandex Cloud

Для анализа данных в облаке не достаточно СУБД и средств визуализации — нужен ещё и понятный инструмент, который автоматизирует сбор, подготовку и обработку данных. На вебинаре мы расскали о таком сервисе — Apache Airflow. Эксперты Yandex Cloud обсудили: - как спроектировать инфраструктуру для Apache Airflow; - как собирать данные в облако для анализа и визуализации на основе Python и Spark; - как автоматизировать обогащение данных и подготовку витрин в аналитическом хранилище на основе PostgreSQL, Greenplum и Clickhouse; - как обеспечивать отказоустойчивость и непрерывность конвейеров данных. Вебинар был интересен и тем, кто только собирается попробовать аналитику данных в облаке, и тем, кто строит такую платформу или хочет масштабировать уже работающую среду. CDO и CTO смогли разобраться, чем инструмент будет полезен бизнесу, а дата-инженеры — получили практические рекомендации для его использования. Полезные ссылки: Репозиторий с примерами из вебинара Образ Apache Airflowв Marketplace Провайдеры Yandex Cloud для Apache Airflow Запись митапаDataOps Community Meetup Запись митапа Greenplum Community Meetup Другие вебинары Yandex Cloud Data Platform Спросить в комьюнити - чат Yandex Cloud Data Platform Следить за новостями - чат Yandex Cloud Data Platform Таймкоды: 00:00 Интро 00:10 Apache Airflow: обзор 09:25 Сценарии использования 13:55 Загрузка и обогащение данныхв Yandex Data Proc 36:05 Обработка данныхв хранилище Greenplum® 45:44 Полезные ресурсы и материалы 46:49 Сессия Q&A

24 views

255