spark – 2 różne wyniki

  • spark – 2 różne wyniki

    Posted by Wojciech Bonna on 2024-12-13 at 15:15

    Siema, są tutaj spece od Sparka? 😀
    Mam streaming danych z kafki (która dostaje dane z debezium, ale to chyba nie jest istotne) do formatu Iceberg. No i w zależności od tego jak napiszę zapytanie do zapisanych danych, to dostaję inny wynik. Po plikach widzę, że robi się automatycznie jakaś retencja metadanych, no ale zakładam, że nie powinno mieć to wpływu na same dane. Czy to jest kwestia jakiegoś sparkowego optymalizatora, który próbuje sobie pomóc metadanymi w przetwarzaniu zadania? ( min(offset) jest moją miarką)

    Wojciech Bonna replied 1 week, 6 days ago 2 Members · 5 Replies
  • 5 Replies
  • Wojciech Bonna

    Member
    2024-12-13 at 15:29
    33 Punkty

    może też jakąś wskazówką będzie to, nie da się zrobić takiej prostej operacji. Da się ją zrobić dopiero gdy tabelę zapiszę wcześniej do cache, ale wtedy też dane są jakby ucięte, w sensie jakby była jakaś retencja.

  • Marek

    Organizer
    2024-12-13 at 17:00
    225 Punkty

    Hej, a możesz pokazać jaki tam jest wynik w obu przypadkach? Bo w sumie widzę, że tam masz różne zapytania, więc nie dziwi że inne sa wyniki

    • Wojciech Bonna

      Member
      2024-12-13 at 17:29
      33 Punkty

      na screenie jest wynik, na samym dole. w pierwszym zapytaniu jest min(offset) == 0, w drugim min(offset) == 590 . zapytania są różne, no ale akurat ta wartość powinna być taka sama.

      • Marek

        Organizer
        2024-12-13 at 17:56
        225 Punkty

        Bardzo nie lubię sprawdzać różnic na dwóch różnych zapytaniach – nawet, jesli wydaje mi się, że “powinny być takie same”. Często jest tak, że sprawa ma parę “pięter” i łatwo się pogubić. Dla bezpieczeństwa sprawdziłbym to samo zapytanie.

        Ale druga sprawa, która mnie bardziej zastanawia – tu nie bierz mojej odpowiedzi za pewnik – ale czy po wciągnięciu danych z kafki, one nie są z niej “czyszczone”, przynajmniej dla tego konkretnego consumera? Jeśli tak, to masz odpowiedź – tam po prostu są już inne dane:-)

        • Wojciech Bonna

          Member
          2024-12-13 at 18:26
          33 Punkty

          ogólnie temat jakiś dziwny mi się zrobił, bo teraz patrzę, że co innego mam w topicu kafki a co innego w danych, które zostały zapisane przez spark streaming z tego topicu. XD coś mi się wydaje, że coś źle w konfiguracji kontenerów. Dzięki za odpowiedź, wrócę pewnie z tym tematem jak trochę posprzątam. 😉

Zaloguj się aby odpowiedzieć