Spark: Jak sprawdzić data skewness w jobie? (+ co to jest data skewness)

Z grubsza ogarniesz to w: 3 min


Autor: Marek Czuma

Dzisiaj poruszam temat, który może być przyczyną Twoich problemów z wydajnością jobów sparkowych. Chodzi o tzw. "Data Skewness". Chcę w kilku krokach pokazać Ci w jaki sposób sprawdzić, czy to z tym problemem masz do czynienia. Kawa w dłoń i ruszamy w drogę!

Co to jest Data Skewness?

Najpierw czas na małe wyjaśnienie tematu. Nie będziemy się bardzo zagłębiać w temat (być może przy innym materiale, w ramach Explainers), ale bardzo prosto - przypomnijmy jak działa Spark:

  1. Pracuje . . .

    Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".