Zufällige allgemeine und spezifische Notizen aus Notion, die nach einigen Projekten mit Spark/AWS Glue erstellt wurden:
- Das Parquet-Format unterschtützt keine leeren Arrays.
- Die Entwicklung eines Schemas in Spark 2.4 für das ORC-Format funktioniert nicht.
- ZSTD-Kompression für das ORC-Format ist sehr erwartet.
- Überprüf immer, ob die gewüncshten Fuktionen wie erwartet fuktionieren. Zum Beispiel funktioniert dynamischen Partitionierung in AWS Glue mit Broadcast-Join nicht, sondern liest es den gesamten Datensatz von der linken Seite. Hoffentlich wird es ab Spark 3.0 behoben. (#TODO test’s)
- Ein weiterer #TODO - test Apache Hudi für inkrementelle Datenverarbeitung in Spark.
- Ein Großartiger Artikel über die Daten-Partitionierung in Spark.