MC, 2025

Python Web Scraping Tutorial: Mga Hakbang at Halimbawa

Ang Python Web Scraping ay isang mahalagang kasanayan para sa mga developer, data scientists, at sinuman na nais kumuha ng impormasyon mula sa web. Sa tutorial na ito, matututunan mo ang mga pangunahing hakbang at mga halimbawa ng kung paano gamitin ang Python para mag-scrape ng data mula sa mga website. Ang tutorial na ito ay nagsisilbing gabay para sa mga baguhan, kaya't magsimula na tayo!

Ano ang Web Scraping?

Ang Web Scraping ay isang proseso ng awtomatikong pagkuha ng data mula sa mga website. Karaniwang ginagamit ito upang makuha ang mga impormasyon mula sa mga webpage tulad ng teksto, larawan, presyo ng produkto, at iba pang mga uri ng content. Ang Python, kasama ang mga libraries nito tulad ng BeautifulSoup at Scrapy, ay isang malakas na tool na ginagamit upang maisakatuparan ang web scraping.

Bakit Mahalaga ang Python Web Scraping?

Ang Python ay isa sa mga pinakasikat na programming language para sa web scraping dahil sa kanyang simplicity at sa malawak na support ng mga libraries. Gamit ang Python, mas madali at mabilis mong makokolekta ang data mula sa web na magagamit mo sa pagsusuri, paggawa ng mga reports, at iba pang mga layunin. Bukod dito, mayroong maraming mga tools at tutorials na available online upang matulungan ka sa bawat hakbang ng scraping.

Mga Hakbang sa Python Web Scraping

Ngayon na alam natin kung ano ang web scraping at kung bakit mahalaga ang Python para dito, simulan natin ang mga pangunahing hakbang na kailangan mong sundin sa Python Web Scraping:

1. Pag-install ng Mga Kinakailangang Libraries

Upang magsimula sa web scraping, kailangan mo munang i-install ang mga kinakailangang libraries. Ang pinaka-popular na library para sa web scraping sa Python ay ang BeautifulSoup, ngunit may iba pang mga libraries tulad ng Requests at Scrapy na magagamit mo. Narito kung paano mo ma-install ang BeautifulSoup at Requests:

pip install beautifulsoup4
pip install requests

Ang `requests` ay ginagamit upang magpadala ng HTTP requests at makuha ang mga HTML na content mula sa mga website. Ang `beautifulsoup4` naman ay ginagamit upang i-parse ang HTML at kunin ang mga partikular na elemento ng webpage.

2. Pagkuha ng Data mula sa Web

Ngayon na na-install mo na ang mga kinakailangang libraries, maaari mo nang simulan ang paggawa ng iyong scraper. Narito ang isang halimbawa kung paano kumuha ng HTML mula sa isang website gamit ang `requests` library:

import requests

# URL ng website na nais i-scrape
url = 'https://example.com'

# Kumuha ng HTML mula sa website
response = requests.get(url)

# Tingnan ang response status code
print(response.status_code)

# I-print ang HTML ng webpage
print(response.text)

Sa code na ito, ang `requests.get(url)` ay magpapadala ng GET request sa website at babalik ang HTML content ng webpage. Maaari mong suriin ang status code ng response (200 ay nangangahulugang matagumpay ang request) at i-print ang buong HTML ng page.

3. Pag-parse ng HTML gamit ang BeautifulSoup

Kapag nakuha mo na ang HTML ng webpage, kailangan mong gamitin ang BeautifulSoup upang i-parse ito at kunin ang mga partikular na bahagi ng webpage. Narito kung paano ito gawin:

from bs4 import BeautifulSoup

# I-parse ang HTML gamit ang BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Kunin ang title ng webpage
title = soup.title.string
print('Title ng webpage:', title)

Sa code na ito, ginamit natin ang `BeautifulSoup` upang i-parse ang HTML. Sa pamamagitan ng `soup.title.string`, nakuha natin ang title ng webpage. Ito ay isang simpleng halimbawa, ngunit maaari mong gamitin ang iba pang mga BeautifulSoup methods upang makuha ang iba't ibang mga elemento ng webpage tulad ng mga links, images, at iba pang mga tags.

4. Pagkuha ng Specific Data (Halimbawa ng Pagkuha ng Links)

Isa sa mga pinaka-karaniwang layunin ng web scraping ay ang pagkuha ng mga link mula sa isang webpage. Gamit ang BeautifulSoup, maaari mong madaling makuha ang lahat ng mga anchor tags (``) na may mga links. Narito ang isang halimbawa:

# Kunin ang lahat ng anchor tags sa webpage
links = soup.find_all('a')

# I-print ang bawat link
for link in links:
    print(link.get('href'))

Sa code na ito, ginamit natin ang `find_all('a')` upang kunin ang lahat ng anchor tags. Pagkatapos, ginamit natin ang `get('href')` upang kunin ang URL ng bawat link.

5. Pag-save ng Nakuha mong Data

Matapos mong makuha ang data mula sa website, maaaring nais mong i-save ito sa isang file o database para sa hinaharap na pagsusuri. Ang mga karaniwang format ng output ay CSV, JSON, o isang simpleng text file. Narito ang isang halimbawa kung paano i-save ang mga links sa isang CSV file:

import csv

# I-save ang mga links sa isang CSV file
with open('links.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Link'])
    for link in links:
        writer.writerow([link.get('href')])

Sa code na ito, ginamit natin ang `csv.writer` upang magsulat ng mga links sa isang CSV file. Ang unang linya ay ang header, at pagkatapos ay isinulat natin ang bawat link sa mga susunod na linya.

6. Pag-handle ng Errors at Pag-iwas sa Block ng Website

Habang nag-scrape ka ng data mula sa mga website, mahalaga na mag-ingat at sumunod sa mga rules ng website upang maiwasan ang pagiging blocked. Ang ilan sa mga website ay may proteksyon laban sa scraping, kaya't mahalaga na magbigay ng mga tamang headers sa iyong requests at huwag magpadala ng masyadong maraming requests sa isang maikling panahon. Narito ang isang halimbawa kung paano magdagdag ng User-Agent header sa iyong request:

headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get(url, headers=headers)

Sa ganitong paraan, ang iyong request ay magiging katulad ng isang request mula sa isang web browser, at ito ay makakatulong sa pag-iwas sa blocks.

Konklusyon

Sa tutorial na ito, natutunan mo ang mga pangunahing hakbang sa Python web scraping, mula sa pag-install ng mga libraries hanggang sa pagkuha at pag-save ng data mula sa mga website. Ang web scraping ay isang malakas na tool para sa pagkolekta ng impormasyon mula sa web, at sa Python, madali itong matutunan at magamit. Ngayon, maaari ka nang magsimula sa iyong sariling web scraping projects at mag-explore pa ng mas advanced na techniques!