MC, 2025

Învață ușor ML: scikit learn tutorial complet

Scikit-learn este una dintre cele mai populare și puternice biblioteci de învățare automată în Python. Ușor de utilizat, intuitiv și bine documentat, acest pachet open-source oferă o gamă largă de algoritmi pentru clasificare, regresie, clustering și preprocesare. În acest scikit learn tutorial vom explora fundamentele bibliotecii și vom vedea câteva scikit learn tutorial przykłady care te vor ajuta să pornești cu dreptul în lumea fascinantă a machine learning-ului.

Ce este Scikit-learn?

Scikit-learn este o bibliotecă Python construită peste alte biblioteci puternice precum NumPy, SciPy și matplotlib. Ea oferă un set coerent de API-uri pentru numeroși algoritmi și funcționalități esențiale în pipeline-urile de machine learning. Dacă vrei să construiești modele predictive sau să faci analize automate pe date, scikit-learn este un punct excelent de pornire.

Instalarea bibliotecii

Instalarea scikit-learn este simplă și se face de obicei folosind pip sau conda:

pip install scikit-learn
# sau
conda install scikit-learn

După instalare, o poți importa în codul tău Python astfel:

import sklearn

Structura generală a unui proiect de ML

Într-un proiect tipic de învățare automată folosind scikit-learn, pașii sunt următorii:

Importarea și preluarea setului de date
Preprocesarea datelor
Împărțirea datelor în set de antrenament și test
Alegerea unui algoritm de învățare
Antrenarea modelului
Evaluarea performanței

scikit learn tutorial przykłady: Clasificare

Un exemplu clasic este clasificarea florilor Iris. Biblioteca vine cu acest set de date inclus.

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Încărcăm datele
iris = load_iris()
X = iris.data
y = iris.target

# Împărțim datele
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Alegem modelul
model = KNeighborsClassifier(n_neighbors=3)

# Antrenăm modelul
model.fit(X_train, y_train)

# Prezicem
y_pred = model.predict(X_test)

# Evaluăm
print("Acuratețea modelului:", accuracy_score(y_test, y_pred))

Acest scikit learn tutorial przykłady arată cât de simplu este să folosești un algoritm de clasificare cu doar câteva linii de cod.

Regresie liniară cu Scikit-learn

Pentru regresie, vom folosi setul de date Boston Housing:

from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Încărcăm datele
data = load_diabetes()
X = data.data
y = data.target

# Împărțim datele
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Model
model = LinearRegression()
model.fit(X_train, y_train)

# Predictii
y_pred = model.predict(X_test)

# Măsurăm performanța
print("Eroarea medie pătratică:", mean_squared_error(y_test, y_pred))

După cum vezi, și pentru regresie scikit-learn oferă o experiență simplă și puternică.

Preprocesarea datelor

Prelucrarea corectă a datelor este esențială. Scikit-learn oferă multe utilitare:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Există și alți transformatori ca MinMaxScaler, OneHotEncoder, Imputer etc.

Pipeline-uri automate

Scikit-learn permite construirea de pipeline-uri care combină preprocesarea și antrenarea:

from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', KNeighborsClassifier(n_neighbors=5))
])

pipeline.fit(X_train, y_train)
print("Acuratețea:", pipeline.score(X_test, y_test))

Folosind pipeline-uri eviți scurgerile de date și îți organizezi codul mai clar.

Cross-validation și evaluare

Validarea încrucișată este esențială pentru o evaluare corectă:

from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, y, cv=5)
print("Scoruri CV:", scores)
print("Scor mediu:", scores.mean())

Poți încerca și GridSearchCV pentru optimizarea hiperparametrilor.

Clustering: KMeans

Scikit-learn include și algoritmi de învățare nesupravegheată:

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

print("Etichete:", kmeans.labels_)

Utile pentru descoperirea de tipare ascunse în date fără etichete.

Exportarea și salvarea modelelor

Modelele pot fi salvate cu ajutorul bibliotecii joblib:

import joblib

joblib.dump(model, 'model.pkl')
# Și apoi:
loaded_model = joblib.load('model.pkl')

Astfel poți reutiliza modelul fără a-l antrena din nou.

Resurse suplimentare

Pe lângă acest scikit learn tutorial, recomandăm:

Documentația oficială: scikit-learn.org
Cursuri gratuite pe Coursera sau edX
Bloguri și tutoriale interactive pe Kaggle

Concluzie

Dacă ai ajuns până aici, felicitări! Acest scikit learn tutorial ți-a oferit o bază solidă pentru a începe să creezi propriile tale modele de învățare automată. Cu ajutorul exemplelor scikit learn tutorial przykłady, ai văzut cât de ușor este să începi chiar și fără experiență anterioară. Acum este momentul să exersezi, să experimentezi și să construiești propriile tale proiecte!

Przeczytaj również, bo warto!