Problem: Tym razem mamy dość specyficzny problem. Występuje on zwykle wtedy, kiedy chcemy celowo (zwykle na potrzeby testów) zepsuć zestaw danych, który posiadamy i o którym wiemy, że jest poprawny. Chcemy stworzyć analogiczny, z losowo występującymi nullami w określonej kolumnie.
Założenia początkowe.
Całość robię w pySparku, ale w Scali jest analogicznie (identycznie?). Pracuję z prostym dataframe, który ma 3 kolumny (device_id, timestamp, meter_reading_unit). Chcemy napsuć trochę rekordów w kolumnie meter_reading_unit
Do naszych poczynań musimy pobrać 2 importy, ale szczególnie . . .
Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".