Apache Spark: Jakie są dostępne strategie partycjonowania?

Z grubsza ogarniesz to w: 2 min


Autor: Marek Czuma

DataFrame'y posiadają kilka strategii partycjonowania. Każda ma swoją specyfikę, wady i zalety. Poniżej skondensowane zestawienie strategii.

Mechanizm partycji + strategie partycjonowania

Każda partycja ma swoje ID. Wiersze w Dataframe są przypisywane do konkretnych partycji. Dzieje się to na kilka różnych sposobów, w zależności od okoliczności. Sposoby te nazywane są "strategiami partycjonowania" (partitioning strategies).

  1. Data Locality - zacznijmy od czegoś, co być może ciężko nazwać strategią jako taką. Jest to jednak sposób w jaki spark . . .

    Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".