Z tego materiału dowiesz się czym jest query plan w Datasetach Apache Spark. Ten kluczowy mechanizm powinien znać każdy inżynier, który chce wskoczyć na wyższy poziom Sparka i podejść do optymalizacji jobów. Zaczynajmy!
Podstawy
Założenia
W tym materiale zakładam, że rozumiesz kilka rzeczy:
- Różnice między RDD a Datasetami/Dataframami
- Czy są akcje i transformacje i jak działają
Jeśli nie znasz tych koncepcji - znajdziesz ich wyjaśnienie w bazie wiedzy lub kursie "Fundament . . .
Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".