Predicate pushdown oraz column pruning to mechanizmy, który pozwalają zaoszczędzić bardzo dużo zasobów. Polegają na przesunięciu filtrów do źródła i obcięciu kolumn. Z tego krótkiego wpisu dowiesz się jak to zrobić, kiedy to może się udać oraz w jaki sposób sprawdzić czy Spark naprawdę robi predicate pushdown i column pruning.
Co to jest predicate pushdown i column pruning?
Na początku chcę zaznaczyć, że materiały do tego artykułu pochodzą z kursu "Tajniki Sparka: Zaawansowane Mechanizmy Przetwarzania Danych". Zapraszam do pełnej . . .
Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".