Dyskusje – Globalna Grupa ABD – Akademia Big Data Growth

Klaster spark + minIO

Globalna Grupa ABD

Klaster spark + minIO

Posted by Wojtek Zdziebkowski on 2025-11-04 at 21:51

Hej, chciałem się podzielić pewnym problemem, który miałem podczas stawiania klastra Sparka z minIO. Może się komuś przydać w przyszłości.

Ogólnie klaster z dwóch mini pc – na dockerze postawione minIO. Domyślnie minIO w trybie distributed wymaga 4 dysków twardych, ja mam tylko 2 i udało mi się trochę oszukać. Na każdym dysku mam wydzielone dwa foldery, które „symulują” dyski. Dla nauki spoko, ale dla innych rozwiązań będzie słabo, bo w razie uszkodzenia dysku tracimy połowę zasobów i nie jest to polecane. Ale tu trochę zboczyłem z tematu.

Postawiłem Sparka (Spark 3.5.3 + Hadoop 3.3.4) oraz Spark History Server. W pierwszej wersji spróbowałem zapisywać logi n poprzez PVC, ale wtedy SHS ma dostęp do logów tylko z jednego node’a, więc przeszedłem na minIO. Tu spotkał mnie error (bodajże nazywał się absolute path). Trochę poczytałem i podziałałem z Claude’m i udało się go rozwiązać, ale nie chodziło o ścieżkę zapisu logów jak wskazywał błąd. Problemem była funkcja AWS S3Guard (ponoć jej nie ma w wersjach Hadoop 3.4.+, bo jest używane inne AWS SDK). Funkcja blokowała połączenie z minIO. Okazuje się, że funkcja ma problem z łączeniem się do pustego bucketu na minIO. Udało się to obejść przez stworzenie „podfolderu” w buckecie do którego zapisują się logi. Dodatkowo ręcznie wrzuciłem tam pusty txt, żeby folder coś posiadał.

Może uda się z tego wątku zrobić większą dyskusję z polecajkiami odnośnie nietypowych problemów na własnym klastrze, także zachęcam do dzielenia się doświadczeniami 😉

Marek Czuma replied 3 months, 3 tygodnie temu 3 Members · 3 Replies
3 Replies

Krzysiek Nojman

Member
2025-11-05 at 07:17

660 Exp

Cześć Wojtku
Bardzo ciekawy case, to się nazywa innowacja prawie jak z doliny krzemowej. Dobra lekcja pokazuje jak trudna jest administracja takich rozproszonych narzędzi. Ja czytam kiedyś case chyba od Google który ma takie klastry ale rozproszone globalnie bez jednego datacenter, to musi być wyzwanie administrowanie tego.
- Wojtek Zdziebkowski
  
  Member
  2025-11-05 at 11:53
  
  1279 Exp
  
  Zgadzam się, w teori wysztko jest proste, ale jak się zaczyna działać to nie ma rzeczy, która się może nie wysypać 😅
Marek Czuma

Organizer
2025-11-05 at 17:05

4142 Exp

Nietypowych problemów na własnym klastrze jest multum. Ja pamiętam jak się bawiłem z Ozone – niby następcą HDDFS, ale coś chyba nie wypaliło. Tak czy inaczej, jak coś źle się wyłączyło, klaster nadawał nodom nowe IDki i nie mógł potem sparować ich jakoś po folderach (bo tam były stare). Jedyne rozwiązanie do jakiego dotarłem to zaoranie klastra – przeczyszczenie i ponowne postawienie. Trochę mało produkcyjne 😀

A Tobie Wojtku bardzo gratuluję! I chociaż taka robota to kupa czasu i wysiłku, to uczy tej branży „od spodu”. Poziom zrozumienia tych technologii potem jest kompletnie inny. Super też, że wykorzystałeś AI do rozwiązania problemu. Chciałbym żebyśmy porozmawiali sobie za jakiś czas na forum Akademii o wykorzystaniu asystentów AI do pracy w inżynierii danych:-) Może jakieś spotkanko? Może grudzień?

Zaloguj się aby odpowiedzieć

Globalna Grupa ABD

Organizer:

Klaster spark + minIO

Klaster spark + minIO

Krzysiek Nojman

Wojtek Zdziebkowski

Marek Czuma