Ten kurs wchodzi w skład serii kursów o Pythonie. Wybierz właściwy, zależnie od stopnia znajomości Pythona i zainteresowań.
Dlaczego ten kurs?
Bo podstawą do stosowania Pythona w Data Science jest właśnie moduł PANDAS. W pierwszym lepszym przykładzie Machine Learning znajdziesz obiekty, które są omawiane tu na tym kursie
Bo dane, które wczytujesz i chcesz analizować trzeba najpierw oczyścić i przetworzyć i w tym również wykorzystuje się PANDAS
Bo każda lekcja ma quiz i praktyczne zadania do samodzielnego rozwiązania - zdaniem autora samo patrzenie nie wystarcza żeby się nauczyć - praktyka jest konieczna
Bo kurs jest dość szczegółowy - ma ponad 13 godzin nagrań a i tak porusza tylko te najważniejsze aspekty pracy z danymi
Bo do kursu masz dołączone materiały do wykonywania ćwiczeń - specjalnie dobrane zbiory pozwalają praktycznie stosować możliwości poznawanych poleceń
Bo tylko na takim praktycznym kursie masz szansę rzeczywiście czegoś się nauczyć - a sądzę, że to właśnie Twój cel!
Naukę możesz kontynuować na innych kursach tego samego autora
To nie jest kurs dla zupełnie początkujących. Wśród wymogów znajdziesz przynajmniej podstawową znajomość Pythona oraz chociaż ogólną wiedzę o analizie danych. Ale bez obaw!
Jeśli chodzi o wiedzę z zakresu programowania w Pythonie – możesz ją zdobyć na kursie „Python dla początkujących”. Jeśli już używasz Pythona, możesz przejrzeć sam spis treści tego kursu i zweryfikować, czy znasz te tematy.
Jeśli chodzi o podstawową znajomość analizy danych, mam na myśli typowe czynności, jakie wykonujemy np. w Excelu. Tam też dane się importuje, przetwarza i analizuje. W tym kursie generalnie robimy to samo, ale w zupełnie inny sposób. Dlatego znajomość np. Excela będzie bardzo mile widziana.
Po tym kursie możesz kontynuować naukę na kursie tego samego autora "Python dla średnio zaawansowanych"
Kurs dość dokładnie omawia wszystkie tematy i właściwie nie ma w nim teorii. Praktycznie tylko video, quizy i zadania do samodzielnego rozwiązania.
Kurs jest dość intensywny. Każde nagranie skupia się na innym temacie i nie tracimy czasu. Główna zaleta kursu online jest taka, że jeśli chcesz aby Ci coś powtórzyć, to nie musisz o to specjalnie prosić… wystarczy skorzystać z przycisku „cofnij 15 sekund wstecz”. Z kolei jeśli materiał już znasz i chcesz go tylko przesłuchać, możesz zwiększyć lub zmniejszyć jego prędkość. O ile tylko nie denerwuje Cię zmiana głosu na bardziej piskliwy, to… czemu nie – korzystaj!
Zaczynamy od skonfigurowania środowiska. Tutaj jest to zrobione w oparciu o system Windows. Jeżeli korzystasz z Linux lub MacOS, to kroki do wykonania są podobne, ale w materiałach ich nie znajdziesz. Jeśli masz już zainstalowane środowisko u siebie to oczywiście ten blok możesz przerobić pobieżnie. Chcę żeby pracowało Ci się wygodnie, dlatego nie tylko instalujemy Jupyter Notebook, ale jeszcze dodatkowo omawiamy jak pracować z nim wydajnie. Jak go konfigurować, dodawać do niego pakiety, jak korzystać ze skrótów klawiaturowych itp. Wiem, że kiedy „palisz się” do analizy danych ten wstęp może Ci się wydawać przydługawy. Możesz w takim przypadku przeskoczyć część tematów i kontynuować lekcje poświęcone PANDAS, a tu wrócisz później. Zdecydowałem się dodać te lekcje po to, żeby ułatwić Ci pracę z PANDAS na własną rękę. Zwłaszcza te kilka lekcji poświęcone tematyce zaawansowanej konfiguracji środowiska z linii komend przydadzą się, kiedy napotkasz jakieś problemy, a znajdowane na forach odpowiedzi będą mówiły o instalacji pakietu przez conda…
Żeby dane analizować, trzeba je mieć. Wszystkie pliki prezentowane na kursie jak i potrzebne do rozwiązywania zadań są dołączone do kursu. W większości przypadków podaję też skąd te materiały pochodzą i moim zdaniem ich dystrybucja nie jest zabroniona – korzystaj do woli, albo szukaj innych na własną rękę. W Internecie jest naprawdę mnóstwo ciekawych i darmowych zbiorów.
Potem właściwie zaczynamy najważniejszą część kursu opowiadającą o PANDAS. Pełna nazwa PANDAS to Python and data analysis i logo tego pakietu to kilka wykresików, ale… sam powiedz z czym się graficznie kojarzy nazwa PANDAS…
Kluczowa w PANDAS i analizie danych jest kolumna danych – tutaj zwana Data Series. Ten obiekt trzeba bardzo dobrze poznać, bo inne obiekty i polecenia bardzo mocno go wykorzystują. Kiedy sam uczyłem się PANDAS bardzo mnie to denerwowało, że tyle czasu uczyłem się tylko o przetwarzaniu pojedynczej kolumny, ale uwierz mi – to nie będzie stracony czas.
Potem przechodzimy do zbioru kolumn, co w PANDAS nazywa się Data Frame. Tu będzie już ciekawiej, bo da się obserwować na raz więcej kolumn a więc i więcej danych. Na tym etapie możesz już pomyśleć o budowaniu analiz własnych zbiorów danych.
Dalej opowiemy o modyfikacji danych. Można by myśleć, że przy analizie danych, nie trzeba ich modyfikować i ogólnie chyba rzeczywiście tak jest. Ale warto wiedzieć jak dodać wiersz, kolumnę, przebudować indeks, bo to też metody na przygotowanie danych do analizy.
W następnym etapie jesteśmy gotowi do pierwszych analiz. Indeksy będą mogły już składać się z wielu poziomów, będziemy je przerzucać z wierszy do kolumn i odwrotnie, zbudujemy tabele przestawne, albo właśnie przekształcimy dane z postaci tabeli danych do normalnej tabeli.
Kolejny krok to grupowanie danych i agregacja danych. Posiadając zagregowane dane możesz analizować je w mniejszych fragmentach, a dzięki temu możesz wykrywać zależności w tych danych i ich charakterystyczne dane. Bez tego wszystkie wyniki byłyby uśrednione na cały zbiór danych i przez to najprawdopodobniej zupełnie bez wartości, a tak możesz zobaczyć charakterystyczne cechy zakupów w poszczególnych regionach czy inne zainteresowania w zależności od wieku i płci itp.
Rzadko kiedy wszystko to, co jest potrzebne jest w jednym miejscu, często jedna sytuacja jest opisywana przez kilka zbiorów danych. Dlatego właśnie mamy specjalną sekcję dotyczącą łączenia danych z różnych źródeł. Myśl o tym jak o łączeniu tabel w bazie danych lub łączeniu arkuszy w skoroszycie.
Kolejny temat to wykresy. Przedstawiamy tu kilka różnych rodzajów wykresów i zmieniamy ich wygląd modyfikując ich mniej i bardziej zaawansowane parametry, ale nie ma co ukrywać – za wykresy w PANDAS odpowiadają funkcje z matplotlib. Informacje z tego kursu będą wystarczające do samodzielnego zbudowania wykresów i zaprezentowania na nich analizowanych danych, ale moduł matplotlib nie jest tutaj omawiany – to duży temat na osobny kurs.
Naukę kończymy dodatkowymi materiałami dotyczącymi pobierania i zapisywania danych na zewnątrz PANDAS, włączając w to dane pobierane z Internetu lub wczytywane i zapisywane w plikach excel.
Zapraszam do nauki. Otwórz sobie drzwi do Data Science!