Apache Spark: Czym Jest Query Plan?

Z grubsza ogarniesz to w: 6 min


Autor: Marek Czuma

Z tego materiału dowiesz się czym jest query plan w Datasetach Apache Spark. Ten kluczowy mechanizm powinien znać każdy inżynier, który chce wskoczyć na wyższy poziom Sparka i podejść do optymalizacji jobów. Zaczynajmy!

Podstawy

Założenia

W tym materiale zakładam, że rozumiesz kilka rzeczy:

  1. Różnice między RDD a Datasetami/Dataframami
  2. Czy są akcje i transformacje i jak działają

Jeśli nie znasz tych koncepcji - znajdziesz ich wyjaśnienie w bazie wiedzy lub kursie "Fundament . . .

Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".