Învață ușor ML: scikit learn tutorial complet
Scikit-learn este una dintre cele mai populare și puternice biblioteci de învățare automată în Python. Ușor de utilizat, intuitiv și bine documentat, acest pachet open-source oferă o gamă largă de algoritmi pentru clasificare, regresie, clustering și preprocesare. În acest scikit learn tutorial vom explora fundamentele bibliotecii și vom vedea câteva scikit learn tutorial przykłady care te vor ajuta să pornești cu dreptul în lumea fascinantă a machine learning-ului.
Ce este Scikit-learn?
Scikit-learn este o bibliotecă Python construită peste alte biblioteci puternice precum NumPy, SciPy și matplotlib. Ea oferă un set coerent de API-uri pentru numeroși algoritmi și funcționalități esențiale în pipeline-urile de machine learning. Dacă vrei să construiești modele predictive sau să faci analize automate pe date, scikit-learn este un punct excelent de pornire.
Instalarea bibliotecii
Instalarea scikit-learn este simplă și se face de obicei folosind pip sau conda:
pip install scikit-learn # sau conda install scikit-learn
După instalare, o poți importa în codul tău Python astfel:
import sklearn
Structura generală a unui proiect de ML
Într-un proiect tipic de învățare automată folosind scikit-learn, pașii sunt următorii:
- Importarea și preluarea setului de date
- Preprocesarea datelor
- Împărțirea datelor în set de antrenament și test
- Alegerea unui algoritm de învățare
- Antrenarea modelului
- Evaluarea performanței
scikit learn tutorial przykłady: Clasificare
Un exemplu clasic este clasificarea florilor Iris. Biblioteca vine cu acest set de date inclus.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# Încărcăm datele
iris = load_iris()
X = iris.data
y = iris.target
# Împărțim datele
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Alegem modelul
model = KNeighborsClassifier(n_neighbors=3)
# Antrenăm modelul
model.fit(X_train, y_train)
# Prezicem
y_pred = model.predict(X_test)
# Evaluăm
print("Acuratețea modelului:", accuracy_score(y_test, y_pred))
Acest scikit learn tutorial przykłady arată cât de simplu este să folosești un algoritm de clasificare cu doar câteva linii de cod.
Regresie liniară cu Scikit-learn
Pentru regresie, vom folosi setul de date Boston Housing:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# Încărcăm datele
data = load_diabetes()
X = data.data
y = data.target
# Împărțim datele
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
# Model
model = LinearRegression()
model.fit(X_train, y_train)
# Predictii
y_pred = model.predict(X_test)
# Măsurăm performanța
print("Eroarea medie pătratică:", mean_squared_error(y_test, y_pred))
După cum vezi, și pentru regresie scikit-learn oferă o experiență simplă și puternică.
Preprocesarea datelor
Prelucrarea corectă a datelor este esențială. Scikit-learn oferă multe utilitare:
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X)
Există și alți transformatori ca MinMaxScaler, OneHotEncoder, Imputer etc.
Pipeline-uri automate
Scikit-learn permite construirea de pipeline-uri care combină preprocesarea și antrenarea:
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('scaler', StandardScaler()),
('model', KNeighborsClassifier(n_neighbors=5))
])
pipeline.fit(X_train, y_train)
print("Acuratețea:", pipeline.score(X_test, y_test))
Folosind pipeline-uri eviți scurgerile de date și îți organizezi codul mai clar.
Cross-validation și evaluare
Validarea încrucișată este esențială pentru o evaluare corectă:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print("Scoruri CV:", scores)
print("Scor mediu:", scores.mean())
Poți încerca și GridSearchCV pentru optimizarea hiperparametrilor.
Clustering: KMeans
Scikit-learn include și algoritmi de învățare nesupravegheată:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
print("Etichete:", kmeans.labels_)
Utile pentru descoperirea de tipare ascunse în date fără etichete.
Exportarea și salvarea modelelor
Modelele pot fi salvate cu ajutorul bibliotecii joblib:
import joblib
joblib.dump(model, 'model.pkl')
# Și apoi:
loaded_model = joblib.load('model.pkl')
Astfel poți reutiliza modelul fără a-l antrena din nou.
Resurse suplimentare
Pe lângă acest scikit learn tutorial, recomandăm:
- Documentația oficială: scikit-learn.org
- Cursuri gratuite pe Coursera sau edX
- Bloguri și tutoriale interactive pe Kaggle
Concluzie
Dacă ai ajuns până aici, felicitări! Acest scikit learn tutorial ți-a oferit o bază solidă pentru a începe să creezi propriile tale modele de învățare automată. Cu ajutorul exemplelor scikit learn tutorial przykłady, ai văzut cât de ușor este să începi chiar și fără experiență anterioară. Acum este momentul să exersezi, să experimentezi și să construiești propriile tale proiecte!

Komentarze (0) - Nikt jeszcze nie komentował - bądź pierwszy!