Globalna Grupa ABD
Globalna Grupa jest jak rynek, na którym możemy się wszyscy spotkać. To tutaj możemy podzielić się... View more
Klaster spark + minIO
-
Klaster spark + minIO
Hej, chciałem się podzielić pewnym problemem, który miałem podczas stawiania klastra Sparka z minIO. Może się komuś przydać w przyszłości.
Ogólnie klaster z dwóch mini pc – na dockerze postawione minIO. Domyślnie minIO w trybie distributed wymaga 4 dysków twardych, ja mam tylko 2 i udało mi się trochę oszukać. Na każdym dysku mam wydzielone dwa foldery, które “symulują” dyski. Dla nauki spoko, ale dla innych rozwiązań będzie słabo, bo w razie uszkodzenia dysku tracimy połowę zasobów i nie jest to polecane. Ale tu trochę zboczyłem z tematu.
Postawiłem Sparka (Spark 3.5.3 + Hadoop 3.3.4) oraz Spark History Server. W pierwszej wersji spróbowałem zapisywać logi n poprzez PVC, ale wtedy SHS ma dostęp do logów tylko z jednego node’a, więc przeszedłem na minIO. Tu spotkał mnie error (bodajże nazywał się absolute path). Trochę poczytałem i podziałałem z Claude’m i udało się go rozwiązać, ale nie chodziło o ścieżkę zapisu logów jak wskazywał błąd. Problemem była funkcja AWS S3Guard (ponoć jej nie ma w wersjach Hadoop 3.4.+, bo jest używane inne AWS SDK). Funkcja blokowała połączenie z minIO. Okazuje się, że funkcja ma problem z łączeniem się do pustego bucketu na minIO. Udało się to obejść przez stworzenie “podfolderu” w buckecie do którego zapisują się logi. Dodatkowo ręcznie wrzuciłem tam pusty txt, żeby folder coś posiadał.
Może uda się z tego wątku zrobić większą dyskusję z polecajkiami odnośnie nietypowych problemów na własnym klastrze, także zachęcam do dzielenia się doświadczeniami 😉
Zaloguj się aby odpowiedzieć
