Jak usunąć duplikaty w Sparku? (distinct vs dropDuplicates)

Spis treści

Przegląd problemu
Rozwiązanie
- Distinct
- Drop Duplicates

Przegląd problemu

Prędzej czy później przychodzi taki moment, że w efekcie różnych transformacji dostajemy identyczne obiekty w naszych dataframach. Jest to szczególnie uciążliwe, gdy musimy pracować na unikatowych danych. Poza tym jednak najzwyczajniej w świecie niepotrzebnie zajmują one miejsce. Aby tego uniknąć, usuwamy duplikaty. Tylko jak to zrobić w Sparku?

Rozwiązanie

Istnieją dwa sposoby – distinct() oraz dropDuplicates().

Distinct

Distinct jest najprostszą formą usuwania duplikatów. Tutaj sprawa jest prosta – na dataframe wywołujemy funkcję distinct(), po czym . . .

Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".

Quick Answers

Tutorials

Explainers

Jak usunąć duplikaty w Sparku? (distinct vs dropDuplicates)

What are your Feelings

What are your Feelings

Share This Article :