Dyskusje – Globalna Grupa ABD – Akademia Big Data Growth

Robota doradczo-rozkimkowa;-)

Globalna Grupa ABD

Robota doradczo-rozkimkowa;-)

Posted by Marek Czuma on 2026-04-21 at 11:31

Hej! Znajoma napisała do mnie. Potrzebują wsparcia w przetwarzaniu danych. Czy ktoś chciałby się podjąć takiego zajęcia, albo ewentualnie razem ze mną moglibyśmy jako zespół wpaść i poprawić wyniki?

Od razu powiem, że nie chodzi o dołączenie na stałe do zespołu, ale o konsultacje – sprawdzenie problemu, doradzenie, zostawienie wytycznych by zespół mógł sobie radzić sam.

Wyzwanie wygląda tak:

Hejka, poszukuję wsparcia w obszarze Big data. Zajmujemy się, w uproszczeniu, zapisywaniem (g)VCFs do Iceberg za pomocą EMR i (py)Spark. W naszym zespole nie ma osób, które by dużo pracowały nad BigData.

Problem – DO tej pory stowrzyliśmy „pipeline”, który ma zaimportować ~80k VCFs (średnia wielkość 350MB – zawsze będę podawać wartość spaokowanego pliku i będzie to BGZIP, mamy dostęp do plików tbi) oraz zrobić repartition tej wyjściowej bazy danych. Przy implementacji najpierw dla 15k, potem 30k i na końcu 80k napotkaliśmy problemy z OutOfMemory, ale udało się to nam naprawić, rzucając pieniędzmi w AWS, albo modyfikująć konfigurację sparka. Teraz doszedł nowy problem – mamy obsługiwać pliki (~1GB, a w niedalekiej przyszłości i do 90GB). Z tego co rozumiem, Spark nie umie sobie dzielić plików na bloki nawet przy BGZIP i wyjdzie na to, że trzeba będzie rozpkaować 90GB i przetwarzać jako plik tekstowy.

Czy ktoś od Ciebie miał do czynienia z ogromnymi plikami i ich przetwarzaniem (ingest, manipulacja danymi w kolumnach, transformacje, itd.) w (py)spark?

Jeśli mógłbyś mi kogoś polecić byłabym bardzo wdzięczna – tutaj mocno zależy na kimś kto ma doświadczenie.
Ktoś gotowy na wyzwanie? 😀

Marek Czuma replied 2 months temu 1 Member · 0 Replies

0 Replies

Niestety, nie znaleziono żadnych odpowiedzi.

Zaloguj się aby odpowiedzieć

Globalna Grupa ABD

Organizer:

Robota doradczo-rozkimkowa;-)

Robota doradczo-rozkimkowa;-)