Notizen über Datenkataloglösungen

Jan 25, 2021 Data catalog, Big data 1 min read

Datenkataloge sind zu einem wesentlichen Bestandteil der modernen Dateninfrastruktur geworden. Es ermöglicht einen Überblick über Organisationsdaten, indem Metadaten darüber gespeichert werden - wie z. B. Speicherort, Format, Attribute usw. Dies ist besonders wichtig in Kombination mit den modernen Architekturen von Datenteams wie Data Mesh, wenn jedes Team zum Datenkatalog beitragen kann.

In der Branche wächst das Interesse, die Produktivität von Dateningenieuren und Wissenschaftlern mit Metadaten zu verbessern. Folgende Projekte wurden in den letzten Jahren veröffentlicht:

Natürlich sind auch in diesem Bereich einige Startups aufgetaucht, mein Favorit ist Tree Schema.

Bisher habe ich ausprobiert, nur Amundsen zusammen mit Apache Atlas (zur Verfolgung der Datenherkunft) zu verwenden. Dies ist jedoch ein großartiges Paar, ein weiterer Teil, der in fast jedem Produkt fehlt – eine Möglichkeit, die Datenqualität festzulegen und zu verfolgen. Darüber möchte ich in den weiteren Artikeln reden.

Teilen