Иван Бегтин Common Data Index. Строим аналог Google Dataset Search, но проще и быстрее

Ближайшая конференция SmartData: #SmartData #DataEngineering #IT #conference #jugrugroup В мире существует немного поисковых систем по наборам данных. Самая известная из них — это Google Dataset Search, также существуют китайский проект , поиск по научным данным в DataCite и ряд экспериментальных проектов. Большая часть поисковых систем по данным построены или вокруг поиска по научным данным, или универсального поиска любых датасетов, опубликованных по стандарту . Так работает Google Dataset Search, например. Однако в реальности данных гораздо больше, существуют тысячи порталов открытых данных, геоданных, данных для машинного обучения и многих других данных. Далеко не все эти данные попадают в существующие поисковые системы и это существенно ограничивает их использование Доклад Ивана будет о создании проекта построения поисковой системы по всем доступным данным в мире путем нескольких шагов: создания каталога порталов данных, сбора метаданных, их анализа и построения единого индекса. Скачать презентацию с сайта —
Back to Top