Globalna Grupa ABD
Globalna Grupa jest jak rynek, na którym możemy się wszyscy spotkać. To tutaj możemy podzielić się... View more
Robota doradczo-rozkimkowa;-)
-
Robota doradczo-rozkimkowa;-)
Hej! Znajoma napisała do mnie. Potrzebują wsparcia w przetwarzaniu danych. Czy ktoś chciałby się podjąć takiego zajęcia, albo ewentualnie razem ze mną moglibyśmy jako zespół wpaść i poprawić wyniki?
Od razu powiem, że nie chodzi o dołączenie na stałe do zespołu, ale o konsultacje – sprawdzenie problemu, doradzenie, zostawienie wytycznych by zespół mógł sobie radzić sam.
Wyzwanie wygląda tak:
Hejka, poszukuję wsparcia w obszarze Big data. Zajmujemy się, w uproszczeniu, zapisywaniem (g)VCFs do Iceberg za pomocą EMR i (py)Spark. W naszym zespole nie ma osób, które by dużo pracowały nad BigData.
Problem – DO tej pory stowrzyliśmy „pipeline”, który ma zaimportować ~80k VCFs (średnia wielkość 350MB – zawsze będę podawać wartość spaokowanego pliku i będzie to BGZIP, mamy dostęp do plików tbi) oraz zrobić repartition tej wyjściowej bazy danych. Przy implementacji najpierw dla 15k, potem 30k i na końcu 80k napotkaliśmy problemy z OutOfMemory, ale udało się to nam naprawić, rzucając pieniędzmi w AWS, albo modyfikująć konfigurację sparka. Teraz doszedł nowy problem – mamy obsługiwać pliki (~1GB, a w niedalekiej przyszłości i do 90GB). Z tego co rozumiem, Spark nie umie sobie dzielić plików na bloki nawet przy BGZIP i wyjdzie na to, że trzeba będzie rozpkaować 90GB i przetwarzać jako plik tekstowy.
Czy ktoś od Ciebie miał do czynienia z ogromnymi plikami i ich przetwarzaniem (ingest, manipulacja danymi w kolumnach, transformacje, itd.) w (py)spark?
Jeśli mógłbyś mi kogoś polecić byłabym bardzo wdzięczna – tutaj mocno zależy na kimś kto ma doświadczenie.
- Ktoś gotowy na wyzwanie? 😀
Niestety, nie znaleziono żadnych odpowiedzi.
Zaloguj się aby odpowiedzieć
