
Įdomus ir paprastas Pandas Tutorial with Examples
Jei dirbate su duomenimis ir ieškote paprasto būdo, kaip atlikti duomenų analizę, "Pandas" yra viena iš geriausių priemonių. Tai galingas Python bibliotekas, leidžiantis lengvai manipuliuoti ir analizuoti duomenis. Šiame straipsnyje mes pateiksime jums "Pandas tutorial with examples", kad galėtumėte greitai pradėti naudoti šią biblioteką ir padidinti savo duomenų analizės įgūdžius.
Kas yra Pandas ir kaip ji veikia?
Pandas yra Python biblioteka, kuri leidžia lengvai valdyti struktūrizuotus duomenis. Ji suteikia du pagrindinius duomenų tipus: "Series" (vienmatė struktūra, panaši į sąrašą) ir "DataFrame" (dviaukštė struktūra, panaši į lentelę arba duomenų bazę). Naudodami Pandas, galite atlikti įvairias operacijas su duomenimis: filtruoti, rūšiuoti, apdoroti trūkstamus duomenis, agreguoti ir daug daugiau.
Pandas įdiegimas
Pradėkime nuo "Pandas" bibliotekos įdiegimo. Jei dar neturite Pandas, galite ją įdiegti naudodami šią komandą:
pip install pandas
Po įdiegimo galite importuoti Pandas į savo Python kodą ir pradėti darbą:
import pandas as pd
Šiuo atveju "pd" yra tik trumpinys, kuris padeda sutrumpinti bibliotekos pavadinimą, kad kodas būtų aiškesnis ir paprastesnis.
Pradžia su "Series"
Vienas iš pagrindinių duomenų tipų Pandas bibliotekoje yra "Series". Tai yra vienmatė struktūra, kurioje duomenys susiejami su indeksais. Pavyzdžiui, galime sukurti paprastą "Series" objektą, kur turime skaičius:
import pandas as pd data = [10, 20, 30, 40, 50] s = pd.Series(data) print(s)
Rezultatas atrodys taip:
0 10 1 20 2 30 3 40 4 50 dtype: int64
Čia, kiekvienas duomenų elementas yra susijęs su indeksu (0, 1, 2, ir t.t.). Tai leidžia lengvai pasiekti duomenis, kai jums reikia.
Naudojant "DataFrame" duomenims tvarkyti
"DataFrame" yra dvimatė struktūra, kuri leidžia tvarkyti duomenis lentelėmis. Tai viena iš galingiausių Pandas savybių, nes galima lengvai importuoti, analizuoti ir manipuliuoti duomenimis iš įvairių šaltinių, tokių kaip CSV failai, SQL duomenų bazės ir pan. Pažiūrėkime paprastą pavyzdį:
import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago']} df = pd.DataFrame(data) print(df)
Rezultatas atrodys taip:
Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago
Šiuo atveju turime lentelę su trimis stulpeliais: "Name", "Age" ir "City", kuriuose yra atitinkami duomenys. Pandas leidžia lengvai manipuliuoti šiais duomenimis ir atlikti analizę, naudojant įvairias funkcijas ir metodus.
Duomenų filtravimas ir rūšiavimas
Vienas iš pagrindinių uždavinių dirbant su duomenimis yra jų filtravimas ir rūšiavimas. Pandas suteikia paprastus įrankius, kaip tai atlikti. Pavyzdžiui, galime išfiltruoti visus žmones, kurių amžius yra didesnis nei 30:
filtered_df = df[df['Age'] > 30] print(filtered_df)
Rezultatas bus toks:
Name Age City 2 Charlie 35 Chicago
Šiuo atveju mes ištraukėme tik tas eilutes, kuriose "Age" reikšmė yra didesnė nei 30.
Duomenų grupavimas ir agregavimas
Pandas taip pat leidžia lengvai grupuoti duomenis ir atlikti agregacijas. Pavyzdžiui, jei turėtume didelį duomenų rinkinį su skirtingomis grupėmis, galėtume suskaičiuoti, kiek žmonių priklauso kiekvienai grupei:
grouped_df = df.groupby('City').size() print(grouped_df)
Rezultatas būtų toks:
City Chicago 1 Los Angeles 1 New York 1 dtype: int64
Šiuo atveju mes grupavome duomenis pagal "City" stulpelį ir suskaičiavome, kiek žmonių gyvena kiekviename mieste.
Trūkstami duomenys ir jų apdorojimas
Dar viena svarbi funkcija dirbant su duomenimis yra trūkstamų reikšmių apdorojimas. Pandas turi keletą metodų, kaip susitvarkyti su trūkstamais duomenimis. Pavyzdžiui, galime naudoti fillna()
metodą, kad užpildytume trūkstamas reikšmes su nuliu:
df['Age'] = df['Age'].fillna(0) print(df)
Taip pat galime pašalinti eilutes su trūkstamais duomenimis naudodami dropna()
metodą:
df = df.dropna() print(df)
Įrašymas ir skaitymas į/iš CSV failų
Dažnai su duomenimis reikia dirbti su failais, todėl Pandas suteikia labai paprastus būdus įrašyti ir skaityti duomenis iš CSV failų. Pavyzdžiui, norėdami įrašyti duomenis į CSV failą, naudojame šį metodą:
df.to_csv('output.csv', index=False)
Norėdami nuskaityti duomenis iš CSV failo, galime naudoti šį metodą:
df = pd.read_csv('input.csv') print(df)
Apibendrinimas
Pandas yra nuostabus įrankis, leidžiantis lengvai ir greitai analizuoti bei manipuliuoti duomenimis. Šiame straipsnyje mes peržiūrėjome pagrindines Pandas funkcijas, įskaitant "Series" ir "DataFrame" naudojimą, duomenų filtravimą, rūšiavimą, grupavimą ir trūkstamų duomenų apdorojimą. Naudodami šiuos metodus, galite atlikti sudėtingą duomenų analizę ir pasiekti įspūdingų rezultatų.
Komentarze (0) - Nikt jeszcze nie komentował - bądź pierwszy!