MC, 2025

Scikit Learn Tutorial: Discover the Magic of Machine Learning

Ar jūs pasiruošę pradėti savo kelionę į mašininį mokymąsi? Jei taip, tada „Scikit Learn“ yra puikus įrankis pradėti! Ši biblioteka, sukurta Python programavimo kalboje, leidžia lengvai atlikti duomenų analizę ir kurti prognozinius modelius. „Scikit Learn“ yra viena iš populiariausių bibliotekų tarp duomenų mokslininkų ir mašininio mokymosi entuziastų, nes ji suteikia daugybę funkcijų, kurios supaprastina sudėtingus procesus. Šiame straipsnyje supažindinsiu jus su pagrindais ir pateiksiu praktinių pavyzdžių, kaip naudoti „Scikit Learn“.

Kas yra Scikit Learn ir Kodėl Jis Toks Populiarus?

„Scikit Learn“ – tai atvirojo kodo Python biblioteka, skirta mašininio mokymosi algoritmų kūrimui. Ji siūlo lengvai naudojamas funkcijas, skirtas tiek klasifikavimo, tiek regresijos, tiek duomenų apdorojimo užduotims atlikti. Be to, „Scikit Learn“ turi puikias dokumentacijas ir platų pavyzdžių rinkinį, todėl ji idealiai tinka tiek pradedantiesiems, tiek pažengusiems programuotojams.

„Scikit Learn“ pasižymi daugeliu naudingų funkcijų, tokių kaip įvairūs duomenų apdorojimo įrankiai (pvz., duomenų normalizavimas, trūkstamų reikšmių užpildymas) ir daugybė išankstinių modelių, kuriuos galite tiesiogiai pritaikyti savo projektui. Tai leidžia atlikti sudėtingas užduotis su minimaliais pastangomis, todėl ši biblioteka tapo standartiniu įrankiu duomenų moksle ir mašininio mokymosi srityje.

Pradėkime nuo Pagrindinių Pavyzdžių: Klasifikacija ir Regresija

„Scikit Learn“ suteikia galimybę atlikti daugybę skirtingų užduočių, tačiau šiuo atveju pradėsime nuo dviejų pagrindinių tipų: klasifikacijos ir regresijos.

1. Klasifikacijos Pavyzdys: Naudojame Iris Duomenų Rinkinį

Norėdami pradėti, apsvarstykime klasifikacijos užduotį. Klasifikacija naudojama tada, kai norime priskirti duomenis į vieną iš kelių kategorijų. Pavyzdžiui, naudodami garsųjį „Iris“ duomenų rinkinį, galime klasifikuoti gėles pagal jų rūšis.

Štai kaip galima įgyvendinti klasifikavimo užduotį naudojant „Scikit Learn“:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Įkeliame Iris duomenų rinkinį
iris = load_iris()
X = iris.data
y = iris.target

# Padaliname duomenis į treniruočių ir testavimo rinkinius
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Sukuriame KNN modelį
knn = KNeighborsClassifier(n_neighbors=3)

# Treniruojame modelį
knn.fit(X_train, y_train)

# Atlikome prognozavimą
y_pred = knn.predict(X_test)

# Apskaičiuojame tikslumą
accuracy = accuracy_score(y_test, y_pred)
print(f'Modelio tikslumas: {accuracy}')

Šiame pavyzdyje mes naudojame K-Nearest Neighbors (KNN) algoritmą, kad klasifikuotume „Iris“ duomenų rinkinį. Pirmiausia įkeliame duomenis, juos padaliname į treniruočių ir testavimo rinkinius, tada sukuriame ir treniruojame KNN modelį. Galiausiai įvertiname modelio tikslumą, naudodami testavimo duomenis.

2. Regresijos Pavyzdys: Prognozės su Lineriniu Modeliu

Dabar pereikime prie regresijos – tai užduotis, kurioje prognozuojame skaitinę reikšmę. Pavyzdžiui, galime naudoti „Scikit Learn“ norėdami prognozuoti būsto kainas, remiantis įvairiais parametrais, tokiais kaip kambarių skaičius ir plotas.

Štai pavyzdys, kaip atlikti regresiją naudojant linijinį modelį:

from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Generuojame atsitiktinius regresijos duomenis
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)

# Padaliname duomenis į treniruočių ir testavimo rinkinius
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Sukuriame linijinį regresijos modelį
model = LinearRegression()

# Treniruojame modelį
model.fit(X_train, y_train)

# Atlikome prognozavimą
y_pred = model.predict(X_test)

# Apskaičiuojame klaidą
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

Šiame pavyzdyje mes naudojame linijinį regresijos modelį, kad prognozuotume skaitines reikšmes. Panašiai kaip ir klasifikacijoje, mes pradime nuo duomenų padalijimo į treniruočių ir testavimo rinkinius, sukuriame ir treniruojame modelį, o galiausiai įvertiname klaidą naudodami vidutinį kvadratinį nuokrypį (MSE).

Praktiniai Patarimai ir Iššūkiai

Nors „Scikit Learn“ yra galinga ir lengvai naudojama biblioteka, ji nėra be iššūkių. Kai kurie dažniausiai pasitaikantys iššūkiai yra:

Duomenų paruošimas: Dažnai duomenys turi būti apdoroti, kad būtų galima naudoti „Scikit Learn“. Tai apima trūkstamų reikšmių užpildymą, duomenų normalizavimą ir šalinimą.
Modelių pasirinkimas: Yra daugybė skirtingų algoritmų, todėl svarbu pasirinkti tinkamą modelį pagal savo užduotį ir duomenis.
Modelių vertinimas: Svarbu ne tik atlikti prognozes, bet ir įvertinti modelio tikslumą bei klaidą, kad galėtumėte pasirinkti geriausią variantą.

Apibendrinimas

„Scikit Learn“ yra viena iš galingiausių ir lengvai naudojamų bibliotekų, skirtų mašininio mokymosi užduotims Python kalboje. Su ja galite lengvai atlikti tiek klasifikacijos, tiek regresijos užduotis, naudodami įvairius algoritmus ir įrankius. Šiame straipsnyje apžvelgėme keletą pagrindinių pavyzdžių, tačiau „Scikit Learn“ siūlo dar daugybę funkcijų, kurias galima išbandyti. Išbandykite šiuos pavyzdžius, atlikite savo analizę ir pradėkite kurti savo prognozinius modelius!

Przeczytaj również, bo warto!