Каталог данных стал неотъемлемой частью современной инфраструктуры данных и управления ими. Это позволяет иметь единую точку входа для исследования и поиска данных организации, путем хранения метаданных о них, таких как местоположение, формат, столбцы / атрибуты и пр. Это становится особенно важно, когда команды внутри организации переходят к современным моделям менеджмента, таким как Data Mesh, когда каждая команда может вносить свой вклад в арсенал данных организации.
В отрасли растет интерес к повышению производительности труда дата-инженеров и сайентистов
с помощью метаданных. Следующие проекты были выпущены за последние несколько лет:
- Dataportal von AirBnb
- Databook von Uber
- Amundsen von Lyft
- Metacat von Netflix Естественно, в этой области появилось несколько стартапов, для меня одним из наиболее интересных выглядит Tree Schema.
До сих пор я пытался использовать только Amundsen вместе с Apache Atlas (который помогает строить взаимосвязи между данными), это отличная связка, однако есть аспект, которого не хватает почти в каждом продукте, - возможность задавать и отслеживать качество данных. Однако данной темы я бы хотел бы коснуться в следующей статье.