MC, 2025

Jak wykorzystać Scrapy CSS do wydobywania danych z internetu? Przykłady, które Cię zaskoczą!

W dzisiejszym świecie internetu, dane są wszędzie, a umiejętność ich wydobywania jest nieoceniona. Web scraping, czyli technika automatycznego zbierania danych z sieci, stała się nieodłącznym narzędziem programistów, analityków i marketerów. Jednym z najpotężniejszych narzędzi do tego celu jest Scrapy – popularny framework w języku Python, który pozwala na tworzenie zaawansowanych aplikacji do pobierania danych. W tym artykule przyjrzymy się, jak wykorzystać CSS w Scrapy do selekcjonowania danych, a także zaprezentujemy praktyczne przykłady zastosowania tej technologii w różnych scenariuszach.

Czym jest Scrapy i jak działa?

Scrapy to framework open-source stworzony z myślą o wydajnym web scrapingu. Dzięki Scrapy możemy tworzyć boty, które odwiedzają strony internetowe, zbierają z nich dane i zapisują je w różnych formatach (np. CSV, JSON, XML). Scrapy pozwala na bardzo precyzyjne definiowanie, jakie dane chcemy zebrać, a także oferuje narzędzia do obsługi różnych aspektów scrapingu, takich jak zarządzanie sesjami, obsługa proxy czy automatyczne śledzenie linków na stronach.

Jeden z kluczowych aspektów Scrapy to możliwość wykorzystania selektorów CSS i XPath do odnajdywania odpowiednich elementów na stronach internetowych. Dziś skupimy się na tym pierwszym podejściu, czyli na selektorach CSS, które są proste do zrozumienia i pozwalają na skuteczne wydobywanie danych z wielu stron.

CSS Selectors w Scrapy: Co to takiego?

CSS (Cascading Style Sheets) to język, który służy do stylizowania stron internetowych, jednak jego składnia może być także używana do selekcjonowania elementów na stronie. W Scrapy, CSS Selectors są wykorzystywane do wskazywania elementów HTML, które chcemy przetworzyć lub wyciągnąć. Dzięki prostym i czytelnym selektorom CSS możemy łatwo odnaleźć dane w tagach HTML, takich jak <div>, <a> czy <span>.

Selektory CSS działają w sposób bardzo podobny do tych, które stosujemy przy pisaniu arkuszy stylów. Dzięki nim możemy wskazać na przykład wszystkie nagłówki na stronie, linki prowadzące do określonych podstron czy obrazki. Jest to bardzo wygodne, ponieważ składnia CSS jest dobrze znana, a samo podejście jest szybkie i efektywne.

Jak korzystać z CSS w Scrapy?

Aby użyć CSS Selectors w Scrapy, musisz najpierw utworzyć projekt Scrapy i zdefiniować odpowiednią metodę do wydobywania danych. Oto przykład podstawowej struktury projektu:

scrapy startproject mojscraper
cd mojscraper
scrapy genspider moja_spider example.com

Po utworzeniu projektu i spidera, przejdź do pliku moja_spider.py i zdefiniuj selektor CSS w metodzie parse.

Przykład 1: Wydobywanie tytułów z artykułów na stronie

Załóżmy, że chcemy zebrać tytuły artykułów z jakiejś strony internetowej. Możemy to zrobić, wykorzystując selektor CSS, który odpowiada za tag nagłówka, np. <h2>. W poniższym przykładzie kodu używamy Scrapy, aby wyciągnąć tytuły z artykułów znajdujących się na stronie:

import scrapy

class MojaSpider(scrapy.Spider):
    name = 'moja_spider'
    start_urls = ['https://example.com']

    def parse(self, response):
        # Szukamy tytułów artykułów za pomocą selektora CSS
        tytuly = response.css('h2.article-title::text').getall()
        for tytul in tytuly:
            yield {'tytul': tytul}

W tym przykładzie selektor CSS h2.article-title::text wskazuje na wszystkie nagłówki artykułów na stronie, które mają klasę article-title. Wartością, którą wyciągamy, jest tekst (czyli tytuł artykułu), który jest dostępny w tym tagu HTML.

Przykład 2: Wydobywanie linków z listy

W tym przykładzie wyciągniemy wszystkie linki z listy na stronie. Za pomocą selektora CSS wskazujemy na wszystkie tagi <a> i wyciągamy ich atrybut href, który zawiera adres URL:

import scrapy

class MojaSpider(scrapy.Spider):
    name = 'moja_spider'
    start_urls = ['https://example.com']

    def parse(self, response):
        # Szukamy wszystkich linków za pomocą selektora CSS
        linki = response.css('ul.lista a::attr(href)').getall()
        for link in linki:
            yield {'link': link}

W tym przypadku selektor CSS ul.lista a::attr(href) zwraca wszystkie linki (a dokładniej atrybut href) znajdujące się w tagach <a> wewnątrz listy (tagu <ul>) o klasie lista.

Przykład 3: Wydobywanie danych z tabeli

Scrapy świetnie nadaje się do wydobywania danych z tabel HTML. W tym przykładzie pokażemy, jak zebrać dane z tabeli na stronie. Za pomocą selektora CSS możemy wskazać wszystkie wiersze tabeli i wyciągnąć dane z poszczególnych komórek:

import scrapy

class MojaSpider(scrapy.Spider):
    name = 'moja_spider'
    start_urls = ['https://example.com']

    def parse(self, response):
        # Szukamy wszystkich wierszy w tabeli
        wiersze = response.css('table#myTable tr')
        for wiersz in wiersze:
            # Wyciągamy dane z komórek tabeli
            kolumna1 = wiersz.css('td:nth-child(1)::text').get()
            kolumna2 = wiersz.css('td:nth-child(2)::text').get()
            yield {'kolumna1': kolumna1, 'kolumna2': kolumna2}

W tym przypadku selektory CSS td:nth-child(1)::text i td:nth-child(2)::text służą do wyciągania tekstu z pierwszej i drugiej kolumny tabeli.

Podsumowanie: Jak Scrapy CSS zmienia web scraping?

Scrapy z selektorami CSS to potężne narzędzie do wydobywania danych z internetu. Dzięki prostej składni CSS możesz łatwo wskazać elementy na stronie, które chcesz przetworzyć, i wyciągnąć z nich konkretne informacje. W tym artykule pokazaliśmy kilka przykładów, jak korzystać z Scrapy i CSS do tworzenia efektywnych spiderów do web scrapingu. Niezależnie od tego, czy chcesz zebrać tytuły artykułów, linki czy dane z tabeli – Scrapy CSS będzie doskonałym wyborem!

Przeczytaj również, bo warto!