MC, 2025
Ilustracja do artykułu: Įdomus ir paprastas Pandas Tutorial with Examples

Įdomus ir paprastas Pandas Tutorial with Examples

Jei dirbate su duomenimis ir ieškote paprasto būdo, kaip atlikti duomenų analizę, "Pandas" yra viena iš geriausių priemonių. Tai galingas Python bibliotekas, leidžiantis lengvai manipuliuoti ir analizuoti duomenis. Šiame straipsnyje mes pateiksime jums "Pandas tutorial with examples", kad galėtumėte greitai pradėti naudoti šią biblioteką ir padidinti savo duomenų analizės įgūdžius.

Kas yra Pandas ir kaip ji veikia?

Pandas yra Python biblioteka, kuri leidžia lengvai valdyti struktūrizuotus duomenis. Ji suteikia du pagrindinius duomenų tipus: "Series" (vienmatė struktūra, panaši į sąrašą) ir "DataFrame" (dviaukštė struktūra, panaši į lentelę arba duomenų bazę). Naudodami Pandas, galite atlikti įvairias operacijas su duomenimis: filtruoti, rūšiuoti, apdoroti trūkstamus duomenis, agreguoti ir daug daugiau.

Pandas įdiegimas

Pradėkime nuo "Pandas" bibliotekos įdiegimo. Jei dar neturite Pandas, galite ją įdiegti naudodami šią komandą:

pip install pandas

Po įdiegimo galite importuoti Pandas į savo Python kodą ir pradėti darbą:

import pandas as pd

Šiuo atveju "pd" yra tik trumpinys, kuris padeda sutrumpinti bibliotekos pavadinimą, kad kodas būtų aiškesnis ir paprastesnis.

Pradžia su "Series"

Vienas iš pagrindinių duomenų tipų Pandas bibliotekoje yra "Series". Tai yra vienmatė struktūra, kurioje duomenys susiejami su indeksais. Pavyzdžiui, galime sukurti paprastą "Series" objektą, kur turime skaičius:

import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print(s)

Rezultatas atrodys taip:

0    10
1    20
2    30
3    40
4    50
dtype: int64

Čia, kiekvienas duomenų elementas yra susijęs su indeksu (0, 1, 2, ir t.t.). Tai leidžia lengvai pasiekti duomenis, kai jums reikia.

Naudojant "DataFrame" duomenims tvarkyti

"DataFrame" yra dvimatė struktūra, kuri leidžia tvarkyti duomenis lentelėmis. Tai viena iš galingiausių Pandas savybių, nes galima lengvai importuoti, analizuoti ir manipuliuoti duomenimis iš įvairių šaltinių, tokių kaip CSV failai, SQL duomenų bazės ir pan. Pažiūrėkime paprastą pavyzdį:

import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

Rezultatas atrodys taip:

       Name  Age         City
0     Alice   25     New York
1       Bob   30  Los Angeles
2   Charlie   35      Chicago

Šiuo atveju turime lentelę su trimis stulpeliais: "Name", "Age" ir "City", kuriuose yra atitinkami duomenys. Pandas leidžia lengvai manipuliuoti šiais duomenimis ir atlikti analizę, naudojant įvairias funkcijas ir metodus.

Duomenų filtravimas ir rūšiavimas

Vienas iš pagrindinių uždavinių dirbant su duomenimis yra jų filtravimas ir rūšiavimas. Pandas suteikia paprastus įrankius, kaip tai atlikti. Pavyzdžiui, galime išfiltruoti visus žmones, kurių amžius yra didesnis nei 30:

filtered_df = df[df['Age'] > 30]
print(filtered_df)

Rezultatas bus toks:

       Name  Age     City
2   Charlie   35  Chicago

Šiuo atveju mes ištraukėme tik tas eilutes, kuriose "Age" reikšmė yra didesnė nei 30.

Duomenų grupavimas ir agregavimas

Pandas taip pat leidžia lengvai grupuoti duomenis ir atlikti agregacijas. Pavyzdžiui, jei turėtume didelį duomenų rinkinį su skirtingomis grupėmis, galėtume suskaičiuoti, kiek žmonių priklauso kiekvienai grupei:

grouped_df = df.groupby('City').size()
print(grouped_df)

Rezultatas būtų toks:

City
Chicago        1
Los Angeles    1
New York       1
dtype: int64

Šiuo atveju mes grupavome duomenis pagal "City" stulpelį ir suskaičiavome, kiek žmonių gyvena kiekviename mieste.

Trūkstami duomenys ir jų apdorojimas

Dar viena svarbi funkcija dirbant su duomenimis yra trūkstamų reikšmių apdorojimas. Pandas turi keletą metodų, kaip susitvarkyti su trūkstamais duomenimis. Pavyzdžiui, galime naudoti fillna() metodą, kad užpildytume trūkstamas reikšmes su nuliu:

df['Age'] = df['Age'].fillna(0)
print(df)

Taip pat galime pašalinti eilutes su trūkstamais duomenimis naudodami dropna() metodą:

df = df.dropna()
print(df)

Įrašymas ir skaitymas į/iš CSV failų

Dažnai su duomenimis reikia dirbti su failais, todėl Pandas suteikia labai paprastus būdus įrašyti ir skaityti duomenis iš CSV failų. Pavyzdžiui, norėdami įrašyti duomenis į CSV failą, naudojame šį metodą:

df.to_csv('output.csv', index=False)

Norėdami nuskaityti duomenis iš CSV failo, galime naudoti šį metodą:

df = pd.read_csv('input.csv')
print(df)

Apibendrinimas

Pandas yra nuostabus įrankis, leidžiantis lengvai ir greitai analizuoti bei manipuliuoti duomenimis. Šiame straipsnyje mes peržiūrėjome pagrindines Pandas funkcijas, įskaitant "Series" ir "DataFrame" naudojimą, duomenų filtravimą, rūšiavimą, grupavimą ir trūkstamų duomenų apdorojimą. Naudodami šiuos metodus, galite atlikti sudėtingą duomenų analizę ir pasiekti įspūdingų rezultatų.

Komentarze (0) - Nikt jeszcze nie komentował - bądź pierwszy!

Imię:
Treść: