Reply To: [Dyskusja] [Baza wiedzy] Parquet vs Delta – co i kiedy wybierać ?

  • Marek

    Organizer
    2024-11-04 at 11:11
    224 Punkty

    Ja używam delty w Databricksach tylko, ale w sumie pytanie samo w sobie jest “oszukane”, bo używając delty używamy także parqueta;-).

    Tak czy siak – uważam że parquet to naprawdę świetny wybór, bardzo popularny nie bez powodu. Moim zdaniem powinien być domyślnym wyborem przy większości architektur, chyba że potrzebujemy czegoś innego – wlaśnie jak np. coś a la tabularyczna baza danych, gdzie można dopiąć jeszcze delta lake.

    Dorzucę jeszcze jedną rzecz – jest format bardzo podobny do parqueta, a mianowicie ORC. I z nim raz pracowałem, gdy okazalo się że jest lepszy podczas pracy z Hive. Nie pamiętam dokładnie o co chodziło, ale ORC lepiej radził sobie z datowo-czasowymi typami.