Evgenii Karimov - Notizen über Datenkataloglösungen

Datenkataloge sind zu einem wesentlichen Bestandteil der modernen Dateninfrastruktur geworden. Es ermöglicht einen Überblick über Organisationsdaten, indem Metadaten darüber gespeichert werden - wie z. B. Speicherort, Format, Attribute usw. Dies ist besonders wichtig in Kombination mit den modernen Architekturen von Datenteams wie Data Mesh, wenn jedes Team zum Datenkatalog beitragen kann.

In der Branche wächst das Interesse, die Produktivität von Dateningenieuren und Wissenschaftlern mit Metadaten zu verbessern. Folgende Projekte wurden in den letzten Jahren veröffentlicht:

Natürlich sind auch in diesem Bereich einige Startups aufgetaucht, mein Favorit ist Tree Schema.

Bisher habe ich ausprobiert, nur Amundsen zusammen mit Apache Atlas (zur Verfolgung der Datenherkunft) zu verwenden. Dies ist jedoch ein großartiges Paar, ein weiterer Teil, der in fast jedem Produkt fehlt – eine Möglichkeit, die Datenqualität festzulegen und zu verfolgen. Darüber möchte ich in den weiteren Artikeln reden.

Notizen über Datenkataloglösungen

Teilen

Auswahl des Open-Source-Kommentarsystems

Zum modernen Data Engineering Stack