MC, 2025

Scikit Learn Tutorial: Kako začeti z učenjem strojnega učenja

Strojno učenje je postalo ključnega pomena za številne industrije in aplikacije, od prepoznavanja obrazov do napovedovanja prihodnjih trendov. Če želite začeti s strojnim učenjem, je Scikit-learn ena izmed najbolj priljubljenih in uporabnih knjižnic v Pythonu, ki vam omogoča, da ustvarite močne modele za obdelavo podatkov. V tej vadnici se bomo naučili osnov Scikit-learn, kako ga nastaviti in uporabljati za reševanje problemov s strojnim učenjem.

Kaj je Scikit-learn?

Scikit-learn je odprtokodna knjižnica za strojno učenje, ki temelji na Pythonu. Namenjena je preprostemu in hitremu razvoju modelov za analizo podatkov in reševanje nalog strojnega učenja. Ponuja širok spekter algoritmov za klasifikacijo, regresijo, klastifikacijo, združevanje podatkov, zmanjševanje dimenzionalnosti in še več. Ker je zasnovana tako, da je enostavna za uporabo, je odlična izbira tako za začetnike kot za strokovnjake na tem področju.

Kako namestiti Scikit-learn?

Za začetek potrebujete Python in pip (Pythonov upravitelj paketov). Namestitev Scikit-learn je preprosta in jo lahko izvedete z naslednjim ukazom v terminalu ali ukazni vrstici:

pip install scikit-learn

Ko je knjižnica nameščena, jo lahko uvozite v vaš Python program z ukazom:

import sklearn

Prvi koraki s Scikit-learn: Preprost primer

Začnimo z osnovnim primerom, ki vam bo pokazal, kako deluje Scikit-learn. V tem primeru bomo uporabili algoritem za klasifikacijo, ki bo razvrstil podatke v dve kategoriji. Uporabili bomo podatke, ki so že vgrajeni v knjižnico, imenovane "Iris dataset".

Najprej bomo uvozili potrebne knjižnice:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

Nato bomo naložili podatke Iris, jih razdelili na učne in testne podatke ter nato zgradili model podpornega vektorja (SVM) za klasifikacijo:

# Naložimo podatke
data = load_iris()
X = data.data
y = data.target

# Razdelimo podatke na učne in testne
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Ustvarimo model SVM
model = SVC()

# Naučimo model
model.fit(X_train, y_train)

# Napovedujemo
y_pred = model.predict(X_test)

# Preverimo natančnost
print("Natančnost modela:", accuracy_score(y_test, y_pred))

V tem primeru smo uporabili algoritem za podporni vektor (SVC), ki je odlična izbira za klasifikacijo v več dimenzionalnih prostorih. Na koncu smo preverili natančnost modela, ki nam pove, kako dobro naš model deluje na testnih podatkih.

Osnovni algoritmi v Scikit-learn

Scikit-learn ponuja številne algoritme za različne naloge strojnega učenja. Tukaj je nekaj najpogostejših:

Klasifikacija: Klasifikacija je naloga, kjer želimo razvrstiti podatke v različne kategorije. Na primer, algoritem k-NN (k najbližjih sosedov), podporni vektorji (SVM) in logistična regresija.
Regresija: Regresija napoveduje kontinuirane vrednosti. Primeri vključujejo linearno regresijo in regresijo z odločitvenimi drevesi.
Grupljenje: Algoritmi za gručenje, kot je K-means, se uporabljajo za iskanje vzorcev in skupin v podatkih brez uporabe oznak.
Zmanjšanje dimenzionalnosti: PCA (Principal Component Analysis) in LDA (Linear Discriminant Analysis) sta dva priljubljena algoritma za zmanjšanje števila spremenljivk v podatkih.

Vsak algoritem ima svoje prednosti in omejitve, zato je pomembno, da razumete nalogo, ki jo želite rešiti, in izberete najbolj ustrezen algoritem za vašo specifično nalogo.

Več primerov uporabe Scikit-learn

Ko obvladate osnove, je čas, da začnete raziskovati bolj kompleksne primere in naloge. Tukaj je nekaj primerov, ki vam bodo pomagali bolje razumeti, kako uporabljati Scikit-learn v različnih situacijah:

1. Klasifikacija z uporabo Logistične regresije

Logistična regresija je preprost, a učinkovit algoritem za klasifikacijo, ki se pogosto uporablja v nalogah, kot so analiza strank ali prepoznavanje e-poštnih sporočil, ki so neželena pošta (spam). Tukaj je preprost primer uporabe logistične regresije v Scikit-learn:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Naložimo podatke
data = load_iris()
X = data.data
y = data.target

# Razdelimo podatke na učne in testne
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Ustvarimo model logistične regresije
model = LogisticRegression(max_iter=200)

# Naučimo model
model.fit(X_train, y_train)

# Napovedujemo
y_pred = model.predict(X_test)

# Preverimo natančnost
print("Natančnost modela:", accuracy_score(y_test, y_pred))

2. Uporaba K-means za gručenje podatkov

Algoritem K-means je pogosto uporabljen za gručenje podatkov, kjer želimo razvrstiti podatke v skupine glede na podobnost. Tukaj je primer uporabe K-means za gručenje podatkov Iris:

from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

# Naložimo podatke
data = load_iris()
X = data.data

# Ustvarimo model K-means
model = KMeans(n_clusters=3)

# Naučimo model
model.fit(X)

# Napovedujemo gruče
print("Predvidene skupine:", model.predict(X))

Zaključek

Scikit-learn je izjemno zmogljiva knjižnica za strojno učenje, ki omogoča hitro in enostavno gradnjo modelov za širok spekter nalog. V tej vadnici smo se osredotočili na osnovne korake, kot so nalaganje podatkov, izbira algoritma, učenje modela in ocenjevanje natančnosti. Ko boste obvladali te osnove, boste pripravljeni, da začnete z reševanjem kompleksnejših nalog s pomočjo strojnog učenja.

Upamo, da vam je ta vodnik pomagal narediti prvi korak v svetu strojnega učenja. Ne pozabite, praksa je ključna, zato ne bojte se preizkusiti različnih algoritmov in tehnik. Srečno učenje!

Przeczytaj również, bo warto!