Microsoft Azure
Rozkminy, problemy, wiedza i dyskusje – wszystko związane z chmurą Microsoft Azure! Czuj się jak u... View more
[Dyskusja] [Baza wiedzy] Parquet vs Delta – co i kiedy wybierać ?
-
[Dyskusja] [Baza wiedzy] Parquet vs Delta – co i kiedy wybierać ?
Hello.
jakie macie doświadczenia ?
Pracuję na razie z danymi, które na pewno nie są BIG i używam Parqueta.
Co stoim za moim wyborem (korzystam Azure Synapse Analytics i Pythona do walidowania danych):
– na początku używałem Delty jako sinka w data flow, ale raz, że nie mogłem nadać temu nazwy takiej, jakiej chciałem, dwa: rozbijało mi to output na kilka plików, trzy: nie wiedzieć czemu, tylko przy wyborze Parquet jako sink type mogłem użyć opcji “Clear folder” i nadać plikowi nazwę taką, jaką chciałem
– Power BI musi być ‘replikowalny’, więc dużo łatwiej jest mi utrzymać raport, który ma zawsze source jako jeden plik o danej nazwie
– w Pythonie mam wrażenie, że parquet lepiej chodzi + kilka funkcji, jakie napisałem, byłyby nie do zrobienia (albo dużo trudniejsze), gdybym miał różne nazwy plików
Teoria teorią, nawet wypromptowałem sobie takie podsumowanie:
Parquet:
- Columnar storage format.
- Efficient for read-heavy operations.
- Great for big data processing.
Delta:
- Built on Parquet.
- Adds ACID transactions and versioning.
- Ideal for data lakes, where data consistency is crucial.
Choose Parquet for analytics-focused tasks with less frequent writes.
Choose Delta for environments needing data reliability and transaction support, like data lakes.
no ale ludzkiego doświadczenia nie przebije nic 😉
+ uważam, że temat jest na tyle ważny, że dobrze by było podsumowanie naszej dyskusji przenieść do bazy wiedzy.
Zaloguj się aby odpowiedzieć