MC, 2025

পাইথন ওয়েব স্ক্র্যাপিং টিউটোরিয়াল: কীভাবে ওয়েব থেকে তথ্য সংগ্রহ করবেন?

আজকের যুগে তথ্য একটি অমূল্য সম্পদ। কিন্তু, প্রতিদিন আমাদের প্রয়োজনীয় তথ্যগুলো অনেক ওয়েবসাইটে ছড়িয়ে থাকে। সেইসব ওয়েবসাইট থেকে তথ্য সংগ্রহ করতে "ওয়েব স্ক্র্যাপিং" একটি কার্যকরী এবং জনপ্রিয় পদ্ধতি। ওয়েব স্ক্র্যাপিং হল একটি প্রযুক্তি, যা দিয়ে আমরা ওয়েব পেজ থেকে স্বয়ংক্রিয়ভাবে তথ্য সংগ্রহ করতে পারি। এই প্রক্রিয়াটি সাধারণত পাইথন প্রোগ্রামিং ভাষার মাধ্যমে করা হয়। এই আর্টিকেলে আমরা পাইথন দিয়ে ওয়েব স্ক্র্যাপিং শেখব এবং কিছু সহজ উদাহরণ দেখব।

পাইথন ওয়েব স্ক্র্যাপিং কি?

পাইথন ওয়েব স্ক্র্যাপিং হল একটি পদ্ধতি যার মাধ্যমে ওয়েব পেজ থেকে তথ্য সংগ্রহ করা হয়। এটি মূলত হাইপারটেক্সট মার্কআপ ল্যাঙ্গুয়েজ (HTML) ডকুমেন্টের কাঠামো থেকে ডেটা বের করার প্রক্রিয়া। ওয়েব স্ক্র্যাপিংয়ের জন্য সাধারণত দুটি প্যাকেজ ব্যবহৃত হয়: BeautifulSoup এবং Requests। এগুলি খুব সহজেই পেজের HTML কোড থেকে প্রয়োজনীয় ডেটা বের করে নিয়ে আসে।

কীভাবে পাইথন দিয়ে ওয়েব স্ক্র্যাপিং শুরু করবেন?

পাইথন দিয়ে ওয়েব স্ক্র্যাপিং শুরু করতে আপনাকে প্রথমে কিছু গুরুত্বপূর্ণ লাইব্রেরি ইনস্টল করতে হবে। এগুলি হল:

Requests: ওয়েব পেজের HTML কন্টেন্ট ডাউনলোড করার জন্য ব্যবহৃত হয়।
BeautifulSoup: HTML বা XML কন্টেন্ট থেকে তথ্য বের করার জন্য ব্যবহৃত হয়।
lxml: HTML পার্সিংয়ের জন্য একটি দ্রুত লাইব্রেরি, যা BeautifulSoup-এর সাথে কাজ করে।

এই লাইব্রেরিগুলি ইনস্টল করার জন্য আপনার পাইটন প্যাকেজ ম্যানেজার pip ব্যবহার করতে পারেন:

pip install requests
pip install beautifulsoup4
pip install lxml

একটি সহজ ওয়েব স্ক্র্যাপিং উদাহরণ

এখন চলুন একটি সহজ উদাহরণ দেখি যেখানে আমরা একটি ওয়েব পেজ থেকে কিছু তথ্য স্ক্র্যাপ করব। ধরুন আমরা একটি ওয়েবসাইট থেকে সব ধরনের শিরোনাম বা টাইটেল বের করতে চাই।

import requests
from bs4 import BeautifulSoup

# ওয়েব পেজের URL
url = 'https://example.com'

# পেজটি রিকোয়েস্ট করা
response = requests.get(url)

# BeautifulSoup দিয়ে HTML কন্টেন্ট পার্সিং
soup = BeautifulSoup(response.text, 'html.parser')

# সমস্ত টাইটেল সংগ্রহ করা
titles = soup.find_all('h1')

# টাইটেলগুলো প্রিন্ট করা
for title in titles:
    print(title.get_text())

এখানে আমরা requests.get() ব্যবহার করে ওয়েব পেজের কন্টেন্ট ডাউনলোড করেছি, এবং তারপর BeautifulSoup দিয়ে HTML পার্সিং করেছি। এরপর soup.find_all('h1') ব্যবহার করে আমরা ওয়েব পেজে থাকা সমস্ত <h1> ট্যাগ থেকে তথ্য সংগ্রহ করেছি।

ওয়েব স্ক্র্যাপিং এর সাথে কিছু গুরুত্বপূর্ণ বিষয়

ওয়েব স্ক্র্যাপিং করতে গিয়ে কিছু গুরুত্বপূর্ণ বিষয় মাথায় রাখা উচিত। যেমন:

ওয়েবসাইটের রোবট.txt ফাইল: অনেক ওয়েবসাইট তাদের রোবট.txt ফাইলে স্ক্র্যাপিং-এর অনুমতি দেয় না। এই ফাইলটি ওয়েবসাইটের স্ক্র্যাপিং নীতিমালা নিয়ন্ত্রণ করে।
ওয়েব পেজের লোডিং সময়: ওয়েব স্ক্র্যাপিং করার সময় ওয়েব পেজের লোডিং সময়ও লক্ষ্য রাখতে হবে। বেশ কিছু পেজ একাধিক নেটওয়ার্ক কল করতে পারে, যার কারণে সময় লাগতে পারে।
ব্যবহারিক সীমাবদ্ধতা: ওয়েব স্ক্র্যাপিংয়ের মাধ্যমে বড় আকারের ডেটা সংগ্রহ করার সময় সার্ভারের ওপর অতিরিক্ত চাপ পড়তে পারে, যা ওয়েবসাইটের কর্মক্ষমতা কমিয়ে দিতে পারে।

কীভাবে ওয়েব স্ক্র্যাপিং প্র্যাকটিস করবেন?

ওয়েব স্ক্র্যাপিং শিখতে গেলে আপনাকে কিছু বাস্তব উদাহরণ দিয়ে প্র্যাকটিস করতে হবে। আপনি বিভিন্ন ওয়েবসাইট থেকে বিভিন্ন ধরনের ডেটা স্ক্র্যাপ করতে পারেন, যেমন:

খবরের শিরোনাম
প্রোডাক্টের মূল্য
মেটা তথ্য বা SEO ডেটা
ব্লগ পোস্ট বা আর্টিকেল

এছাড়াও, আপনি ওপেন ডেটা সাইটগুলো থেকেও ডেটা স্ক্র্যাপ করতে পারেন যেমন Kaggle বা data.gov।

বেশ কিছু উন্নত স্ক্র্যাপিং টিপস

যখন আপনি ওয়েব স্ক্র্যাপিং শিখবেন এবং প্র্যাকটিস করবেন, তখন কিছু উন্নত কৌশল ব্যবহার করতে পারেন:

ব্যাচ স্ক্র্যাপিং: একসাথে অনেক পেজ স্ক্র্যাপ করা।
লুপ ব্যবহার: একাধিক পেজ স্ক্র্যাপ করার জন্য লুপ ব্যবহার করতে পারেন।
ডেটা ক্লিনিং: স্ক্র্যাপ করা ডেটাকে পরিষ্কার এবং সঠিকভাবে সাজানো।
অটোমেশন টুলস: কিছু স্ক্র্যাপিং টাস্ক স্বয়ংক্রিয় করার জন্য আপনি পাইথনের সাথে অটোমেশন টুলস ব্যবহার করতে পারেন।

উপসংহার

পাইথন ওয়েব স্ক্র্যাপিং একটি শক্তিশালী এবং সহজ পদ্ধতি, যা দিয়ে আপনি ওয়েবসাইট থেকে তথ্য সংগ্রহ করতে পারেন। এই টিউটোরিয়ালে আমরা শিখলাম কীভাবে সহজ উদাহরণ দিয়ে ওয়েব স্ক্র্যাপিং শুরু করতে হয় এবং কিছু গুরুত্বপূর্ণ টিপস নিয়ে আলোচনা করেছি। আপনি এখন নিজে থেকে ওয়েব স্ক্র্যাপিং শুরু করতে পারেন এবং আরও গভীরভাবে এটি শিখতে পারেন।

Przeczytaj również, bo warto!