Evgenii Karimov - Was ich gelernt habe bei der Arbeit mit Spark/AWS Glue

Zufällige allgemeine und spezifische Notizen aus Notion, die nach einigen Projekten mit Spark/AWS Glue erstellt wurden:

Das Parquet-Format unterschtützt keine leeren Arrays.
Die Entwicklung eines Schemas in Spark 2.4 für das ORC-Format funktioniert nicht.
ZSTD-Kompression für das ORC-Format ist sehr erwartet.
Überprüf immer, ob die gewüncshten Fuktionen wie erwartet fuktionieren. Zum Beispiel funktioniert dynamischen Partitionierung in AWS Glue mit Broadcast-Join nicht, sondern liest es den gesamten Datensatz von der linken Seite. Hoffentlich wird es ab Spark 3.0 behoben. (#TODO test’s)
Ein weiterer #TODO - test Apache Hudi für inkrementelle Datenverarbeitung in Spark.
Ein Großartiger Artikel über die Daten-Partitionierung in Spark.

Was ich gelernt habe bei der Arbeit mit Spark/AWS Glue