Случайные и не очень заметки из Ноушн после парочки проектов на Spark и AWS Glue:
- Parquet не поддерживает пустые массивы.
- Эволюция схемы поломана в Spark 2.4 для ORC формата.
- Очень жду поддержку ZSTD компрессию для ORC формата в Спарке.
- Всегда проверяй, что разные фишки работают, как ожидаешь - например, динамическое партиционирование внезапно не работает в случае broadcast join’ов на AWS Glue, а читает весь датасет с левой части. (нужно проверить, как обстоят дела в Spark 3.0 - завезли много связанных с этим новых фишек)
- Apache Hudi - выглядит классно для инкрементальных загрузок данных, нужно потестить.
- Отличная статья по репартиционированию данных в Спарке.