Apache Spark: Jak w losowych miejscach DataFrame dodać nulle?

Z grubsza ogarniesz to w: 1 min

Problem: Tym razem mamy dość specyficzny problem. Występuje on zwykle wtedy, kiedy chcemy celowo (zwykle na potrzeby testów) zepsuć zestaw danych, który posiadamy i o którym wiemy, że jest poprawny. Chcemy stworzyć analogiczny, z losowo występującymi nullami w określonej kolumnie.

Założenia początkowe.

Całość robię w pySparku, ale w Scali jest analogicznie (identycznie?). Pracuję z prostym dataframe, który ma 3 kolumny (device_id, timestamp, meter_reading_unit). Chcemy napsuć trochę rekordów w kolumnie meter_reading_unit

Do naszych poczynań musimy pobrać 2 importy, ale szczególnie . . .

Ta zawartość jest przeznaczona tylko dla uczestników opłacających abonament. Wejdź w ikonę swojego użytkownika w prawym górnym rogu, a następnie "Platności i Konto".