MC, 2025

Scikit-learn Tutorial: Alamin Kung Paano Gumamit ng Machine Learning

Ang Scikit-learn ay isang napakalakas at popular na library para sa machine learning sa Python. Kung ikaw ay nagsisimula pa lamang sa mundo ng machine learning, ang tutorial na ito ay makakatulong sa iyo upang matutunan ang mga pangunahing konsepto at teknik na ginagamit sa Scikit-learn. Ang pag-aaral ng machine learning ay maaaring magmukhang nakakatakot sa una, ngunit sa tulong ng Scikit-learn, maaari kang magtayo ng mga powerful na modelo sa mga simpleng hakbang lamang. Ngayon, magsimula tayo!

Ano ang Scikit-learn?

Ang Scikit-learn ay isang open-source na library para sa machine learning na itinayo sa ibabaw ng Python. Ito ay nagbibigay ng isang malawak na hanay ng mga tool para sa mga algorithm ng machine learning, tulad ng classification, regression, clustering, at marami pang iba. Sa madaling salita, ang Scikit-learn ay nagpapadali sa pagbuo ng mga modelo at nagbibigay ng mga madaling gamitin na interface para sa machine learning. Ang library na ito ay batay sa mga prinsipyo ng NumPy, SciPy, at matplotlib, na ginagamit upang mapadali ang computation at visualization.

Bakit Dapat Mong Matutunan ang Scikit-learn?

Ang Scikit-learn ay isang libreng library na madaling gamitin at may malawak na komunidad. Ang mga pangunahing benepisyo ng paggamit ng Scikit-learn ay ang mga sumusunod:

Madaling i-implement ang mga algorithm ng machine learning.
Isang malaking bilang ng mga pre-built na algorithm at tools na available.
Kompatible sa iba pang mga library tulad ng pandas, numpy, at matplotlib.
Ang documentation at mga tutorials ay napaka-kumpleto, kaya kahit na bago ka pa lamang sa machine learning, madali mong matututunan ito.

Pag-setup ng Scikit-learn sa Iyong Kapaligiran

Upang makapagsimula, kailangan mo munang i-install ang Scikit-learn sa iyong Python environment. Narito ang isang simpleng paraan upang mag-install gamit ang pip:

pip install scikit-learn

Kung gumagamit ka ng Jupyter notebook, maaari mong isama ito sa iyong code cell upang madaling mag-install ng package. Tiyakin na mayroon ka ring mga kinakailangang library tulad ng NumPy at pandas na naka-install, dahil ito ay magiging kapaki-pakinabang sa pagproseso ng data at mga mathematical na operasyon.

Unang Hakbang: Pag-load ng Data

Bago tayo magsimula sa machine learning, kailangan muna natin ng data. Sa tutorial na ito, gagamit tayo ng isang halimbawa mula sa built-in na dataset ng Scikit-learn, ang "Iris dataset". Ang dataset na ito ay naglalaman ng impormasyon tungkol sa tatlong klase ng Iris na bulaklak, at ginagamit ito upang matutunan ang classification algorithm.

from sklearn.datasets import load_iris
import pandas as pd

# I-load ang dataset
iris = load_iris()

# I-convert ito sa DataFrame
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Ipakita ang unang limang row
print(df.head())

Ang code na ito ay maglo-load ng Iris dataset, i-convert ito sa isang pandas DataFrame, at ipapakita ang unang limang row ng data. Sa dataset na ito, ang mga feature ay kinabibilangan ng mga sukat ng petals at sepals, habang ang target ay tumutukoy sa klase ng bulaklak.

Pagpreproseso ng Data

Karaniwan, ang data na makukuha natin ay hindi palaging malinis. Kadalasan, kailangan nating ayusin ito bago tayo magpatuloy sa machine learning. Sa kasong ito, ang Iris dataset ay medyo malinis na, ngunit ipapakita ko pa rin ang ilang mga hakbang na maaaring kailanganin sa ibang pagkakataon.

Pag-alis ng mga nawawalang halaga: Kung ang iyong dataset ay may nawawalang mga halaga, kailangan mong mag-decide kung aalisin o papalitan mo ang mga ito.
Pag-normalize ng mga feature: Ang mga modelo ng machine learning ay mas mabuti sa mas madaling scale na data. Sa Scikit-learn, maaari mong gamitin ang StandardScaler upang i-normalize ang iyong data.
Paghahati ng data sa training at testing set: Kailangan mong hatiin ang data sa dalawang bahagi: isa para sa training at isa para sa testing upang matutunan ng modelo at matest kung paano ito gumagana.

from sklearn.model_selection import train_test_split

# Hatiin ang data sa training at testing set
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.3, random_state=42)

# Ipakita ang laki ng training at testing set
print(f"Training set size: {X_train.shape[0]}")
print(f"Testing set size: {X_test.shape[0]}")

Sa code na ito, hinati natin ang data sa 70% para sa training at 30% para sa testing gamit ang train_test_split function mula sa Scikit-learn.

Pagbuo ng isang Modelong Machine Learning

Ngayon, magtatayo tayo ng isang simpleng modelo gamit ang Scikit-learn. Sa kasong ito, gagamit tayo ng KNeighborsClassifier, isang algorithm na ginagamit para sa classification. Ang algorithm na ito ay gumagana sa pamamagitan ng paghahanap ng mga pinakamalapit na mga puntos sa training data at ginagamit ang mga ito upang gumawa ng mga prediksyon para sa bagong data.

from sklearn.neighbors import KNeighborsClassifier

# Gumawa ng modelo
model = KNeighborsClassifier(n_neighbors=3)

# Sanayin ang modelo
model.fit(X_train, y_train)

# Gumawa ng mga prediksyon
y_pred = model.predict(X_test)

# Ipakita ang mga resulta
print(f"Predicted values: {y_pred[:5]}")

Sa code na ito, itinayo natin ang isang K-Nearest Neighbors classifier na may 3 pinakamalapit na neighbors at sinanay ito sa training data. Pagkatapos, gumawa tayo ng mga prediksyon gamit ang testing data.

Evaluasyon ng Modelo

Pagkatapos ng training, kailangan natin suriin kung gaano kahusay ang ating modelo. Sa Scikit-learn, may mga simpleng paraan upang gawin ito. Halimbawa, maaari nating gamitin ang accuracy_score upang makita kung ilang porsyento ng mga prediksyon ang tama.

from sklearn.metrics import accuracy_score

# Kalkulahin ang accuracy
accuracy = accuracy_score(y_test, y_pred)

print(f"Model accuracy: {accuracy * 100:.2f}%")

Ang accuracy na ito ay magsasabi sa atin kung ilang porsyento ng mga prediksyon ang tama kumpara sa aktwal na values. Makakatulong ito upang malaman kung ang modelo ay gumagana nang maayos o kung kailangan pa itong i-tune.

Mga Susunod na Hakbang

Ngayon na natutunan mo ang mga pangunahing hakbang sa pagbuo ng isang modelo gamit ang Scikit-learn, maaari kang magpatuloy sa pag-explore ng iba pang mga algorithm at advanced na teknik. Narito ang ilan sa mga susunod na hakbang na maaari mong gawin:

Subukan ang iba pang mga classification algorithm tulad ng RandomForestClassifier, LogisticRegression, at SVM.
Mag-eksperimento sa hyperparameter tuning gamit ang GridSearchCV.
Gamitin ang cross-validation upang masiguro na ang iyong modelo ay hindi overfitting.

Konklusyon

Sa tutorial na ito, natutunan mo ang mga pangunahing hakbang sa pagbuo ng isang machine learning model gamit ang Scikit-learn. Mula sa pag-load ng data, paghahati nito, pagbuo ng modelo, at evaluasyon ng mga resulta, ngayon ay mayroon ka nang mga kasanayan upang magsimula sa iyong sariling proyekto. Tandaan, ang machine learning ay isang malawak na larangan, at ang pag-aaral ay patuloy na proseso. Kaya mag-eksperimento, magtulungan, at patuloy na mag-aral upang maging eksperto!

Przeczytaj również, bo warto!