Заметки о системах каталогов данных

Jan 25, 2021 Data catalog, Big data 1 min read

Каталог данных стал неотъемлемой частью современной инфраструктуры данных и управления ими. Это позволяет иметь единую точку входа для исследования и поиска данных организации, путем хранения метаданных о них, таких как местоположение, формат, столбцы / атрибуты и пр. Это становится особенно важно, когда команды внутри организации переходят к современным моделям менеджмента, таким как Data Mesh, когда каждая команда может вносить свой вклад в арсенал данных организации.

В отрасли растет интерес к повышению производительности труда дата-инженеров и сайентистов
с помощью метаданных. Следующие проекты были выпущены за последние несколько лет:

До сих пор я пытался использовать только Amundsen вместе с Apache Atlas (который помогает строить взаимосвязи между данными), это отличная связка, однако есть аспект, которого не хватает почти в каждом продукте, - возможность задавать и отслеживать качество данных. Однако данной темы я бы хотел бы коснуться в следующей статье.

Поделиться