Robota doradczo-rozkimkowa;-)

  • Robota doradczo-rozkimkowa;-)

    Posted by Marek Czuma on 2026-04-21 at 11:31

    Hej! Znajoma napisała do mnie. Potrzebują wsparcia w przetwarzaniu danych. Czy ktoś chciałby się podjąć takiego zajęcia, albo ewentualnie razem ze mną moglibyśmy jako zespół wpaść i poprawić wyniki?

    Od razu powiem, że nie chodzi o dołączenie na stałe do zespołu, ale o konsultacje – sprawdzenie problemu, doradzenie, zostawienie wytycznych by zespół mógł sobie radzić sam.

    Wyzwanie wygląda tak:

    Hejka, poszukuję wsparcia w obszarze Big data. Zajmujemy się, w uproszczeniu, zapisywaniem (g)VCFs do Iceberg za pomocą EMR i (py)Spark. W naszym zespole nie ma osób, które by dużo pracowały nad BigData.

    Problem – DO tej pory stowrzyliśmy „pipeline”, który ma zaimportować ~80k VCFs (średnia wielkość 350MB – zawsze będę podawać wartość spaokowanego pliku i będzie to BGZIP, mamy dostęp do plików tbi) oraz zrobić repartition tej wyjściowej bazy danych. Przy implementacji najpierw dla 15k, potem 30k i na końcu 80k napotkaliśmy problemy z OutOfMemory, ale udało się to nam naprawić, rzucając pieniędzmi w AWS, albo modyfikująć konfigurację sparka. Teraz doszedł nowy problem – mamy obsługiwać pliki (~1GB, a w niedalekiej przyszłości i do 90GB). Z tego co rozumiem, Spark nie umie sobie dzielić plików na bloki nawet przy BGZIP i wyjdzie na to, że trzeba będzie rozpkaować 90GB i przetwarzać jako plik tekstowy.

    Czy ktoś od Ciebie miał do czynienia z ogromnymi plikami i ich przetwarzaniem (ingest, manipulacja danymi w kolumnach, transformacje, itd.) w (py)spark?

    Jeśli mógłbyś mi kogoś polecić byłabym bardzo wdzięczna – tutaj mocno zależy na kimś kto ma doświadczenie.

  • Ktoś gotowy na wyzwanie? 😀
Marek Czuma replied 3 tygodnie, 2 dni temu 1 Member · 0 Replies
  • 0 Replies

    Niestety, nie znaleziono żadnych odpowiedzi.

    Zaloguj się aby odpowiedzieć