Reply To: Advent of Code 🎁

  • Daria Czerniawko

    Member
    2024-12-02 at 18:39
    39 Punkty

    Cześć! 🙂

    Jestem jak najbardziej za! Od samego początku rozmyślałam nad takimi wyzwaniami – dla mnie jest to jeden z lepszych sposobów na naukę.

    Zgadzam się z Wami, że lepiej to rozłożyć na dłuższe okresy.
    Pomysł na rozgraniczenie na miesiące wydaje się mieć największy sens.
    Dodatkowo możemy też poruszyć kwestie DevOpsowania, programowania itp, bo one jak najbardziej przydadzą się w DE 🙂 Można to fajnie rozłożyć tematycznie i stopniowo rozwijać różne umiejętności.

    Jeśli chodzi o zbiory danych, to faktycznie mamy ich pod dostatkiem – Kaggle, Open Data czy różne API – idealnie nadają się do takich ćwiczeń.

    Dodatkowo przygotowałam kilka propozycji wyzwań, które mogą się wpisać w taki tematyczny podział. Co myślisz o czymś takim?

    Grudzień ze Sparkiem:

    Załaduj duży plik CSV do PySparka i oblicz sumę wartości w wybranej kolumnie.
    Zaimplementuj funkcję MapReduce, aby policzyć słowa w zestawie danych tekstowych.
    Wykryj anomalie w dużych danych – rekordy odbiegające od średniej o więcej niż 3 odchylenia standardowe.
    Skonwertuj dane do formatu Parquet i sprawdź, jak zmienia się rozmiar i szybkość przetwarzania.

    Styczeń z architekturą:

    Zbuduj prosty pipeline ETL, który pobiera dane z API, przetwarza w Pythonie i ładuje do bazy danych.
    Zaimplementuj automatyczne uruchamianie przetwarzania danych w Airflow.
    Przygotuj koncepcję architektury danych dla małej aplikacji – jakie bazy, narzędzia i technologie byś użył/a?
    Porównaj różne formaty danych (JSON, Avro, Parquet) pod kątem wydajności.

    Luty z analizą danych:

    Przygotuj ranking klientów na podstawie ich zamówień w SQL-u lub Pandasie.
    Wypełnij brakujące wartości w zestawie danych (średnią, medianą lub modelem predykcyjnym).
    Przygotuj wizualizację trendów z danych sprzedażowych lub pogodowych.
    Zidentyfikuj najczęściej występujące ścieżki użytkowników w danych z logów kliknięć.

    Dajcie znać, czy coś takiego by Ci pasowało!

    Jeżeli chodzi o takie małe wyzwania, to tak jak Marek powiedział, trzeba mieć do tego duże zaplecze i nie jest to teraz do ogranięcia 🙁

    Jedynie co mogę polecić to LeetCode, HackerRank do jakiś szybkich wyzwań, ale wiadomo to nie będzie czyste DE.