Evgenii Karimov - Некоторые заметки после плотной работы с Spark/AWS Glue

Случайные и не очень заметки из Ноушн после парочки проектов на Spark и AWS Glue:

Parquet не поддерживает пустые массивы.
Эволюция схемы поломана в Spark 2.4 для ORC формата.
Очень жду поддержку ZSTD компрессию для ORC формата в Спарке.
Всегда проверяй, что разные фишки работают, как ожидаешь - например, динамическое партиционирование внезапно не работает в случае broadcast join’ов на AWS Glue, а читает весь датасет с левой части. (нужно проверить, как обстоят дела в Spark 3.0 - завезли много связанных с этим новых фишек)
Apache Hudi - выглядит классно для инкрементальных загрузок данных, нужно потестить.
Отличная статья по репартиционированию данных в Спарке.

Некоторые заметки после плотной работы с Spark/AWS Glue