MC, 2025

PyPDF – Wszystko, co musisz wiedzieć o manipulacji plikami PDF w Pythonie

W pracy z plikami PDF często napotykamy na potrzeby, które mogą wymagać edycji, łączenia lub dzielenia dokumentów. Na szczęście, dzięki bibliotece PyPDF, cały proces staje się prosty i szybki. W tym artykule pokażemy, jak wykorzystać PyPDF do manipulowania plikami PDF w Pythonie, dając Ci praktyczne wskazówki i przykłady. Gotowy na przygodę z plikami PDF? Zaczynajmy!

Co to jest PyPDF?

PyPDF to popularna biblioteka w języku Python, która umożliwia manipulację plikami PDF. Możesz używać jej do różnych operacji na dokumentach PDF, takich jak łączenie kilku plików, dzielenie pojedynczego dokumentu na mniejsze części, obracanie stron, a także wyodrębnianie tekstu czy dodawanie stron. PyPDF jest lekką biblioteką, która nie wymaga skomplikowanej konfiguracji, co sprawia, że jest bardzo popularna wśród programistów. To narzędzie doskonale sprawdza się w automatyzacji zadań związanych z przetwarzaniem dokumentów PDF.

Jak zainstalować PyPDF?

Przed rozpoczęciem pracy z PyPDF musisz zainstalować bibliotekę. Na szczęście jest to bardzo łatwe! Wystarczy, że użyjesz menedżera pakietów pip. W terminalu wpisz poniższe polecenie:

pip install pypdf

Po zainstalowaniu PyPDF możesz zacząć korzystać z niej w swoich projektach. Zatem, przygotuj się na pierwsze przygody z manipulowaniem plikami PDF!

Podstawowe operacje z użyciem PyPDF

PyPDF oferuje szereg funkcji, które umożliwiają edycję i manipulację plikami PDF. Przyjrzyjmy się kilku podstawowym operacjom, które będziesz mógł wykonać za pomocą tej biblioteki.

1. Łączenie plików PDF

Jedną z najczęstszych operacji jest łączenie kilku plików PDF w jeden dokument. W PyPDF możesz to zrobić za pomocą klasy PdfMerger. Poniżej znajduje się przykład, jak połączyć dwa pliki PDF w jeden:

from pypdf import PdfMerger

# Tworzymy obiekt PdfMerger
merger = PdfMerger()

# Dodajemy pliki PDF do połączenia
merger.append("pierwszy_plik.pdf")
merger.append("drugi_plik.pdf")

# Łączymy pliki i zapisujemy wynik
merger.write("polaczony_plik.pdf")
merger.close()

W powyższym przykładzie używamy funkcji append(), aby dodać pliki PDF, a następnie zapisujemy połączony plik za pomocą metody write().

2. Dzielenie pliku PDF

Inną powszechną operacją jest dzielenie dokumentu PDF na mniejsze części. Na przykład, możemy chcieć wyodrębnić tylko kilka stron z dużego pliku. PyPDF pozwala na to za pomocą klasy PdfReader i funkcji split(). Oto przykład, jak podzielić plik PDF na dwie części:

from pypdf import PdfReader, PdfWriter

# Otwieramy plik PDF do podziału
reader = PdfReader("duzy_plik.pdf")

# Tworzymy nowy plik PDF dla pierwszych trzech stron
writer1 = PdfWriter()
for i in range(3):
    writer1.add_page(reader.pages[i])

# Tworzymy nowy plik PDF dla pozostałych stron
writer2 = PdfWriter()
for i in range(3, len(reader.pages)):
    writer2.add_page(reader.pages[i])

# Zapisujemy obie części
with open("czesc_1.pdf", "wb") as output1:
    writer1.write(output1)

with open("czesc_2.pdf", "wb") as output2:
    writer2.write(output2)

W tym przykładzie dzielimy dokument na dwie części: pierwsze trzy strony trafiają do jednego pliku, a reszta do drugiego. Warto zauważyć, że metoda add_page() pozwala na dodawanie poszczególnych stron z oryginalnego pliku do nowych plików.

3. Obracanie stron PDF

Czasem zachodzi potrzeba obrócenia strony w dokumencie PDF. PyPDF oferuje funkcję, która pozwala na łatwe obracanie stron. Poniżej znajdziesz przykład, jak obrócić wszystkie strony w pliku PDF o 90 stopni:

from pypdf import PdfReader, PdfWriter

reader = PdfReader("plik_do_obrotu.pdf")
writer = PdfWriter()

# Obracamy każdą stronę o 90 stopni
for page in reader.pages:
    page.rotate(90)
    writer.add_page(page)

# Zapisujemy zmodyfikowany plik PDF
with open("obrocony_plik.pdf", "wb") as output:
    writer.write(output)

W tym przykładzie używamy metody rotate(), aby obrócić każdą stronę o 90 stopni. Następnie zapisujemy zmodyfikowany plik PDF.

4. Wyodrębnianie tekstu z PDF

Często zdarza się, że potrzebujemy wyodrębnić tekst z pliku PDF do dalszej analizy lub przetwarzania. PyPDF pozwala na łatwe wykonanie tej operacji za pomocą klasy PdfReader. Oto przykład, jak wyodrębnić tekst z pierwszej strony dokumentu:

from pypdf import PdfReader

reader = PdfReader("plik_z_tekstem.pdf")

# Wyodrębniamy tekst z pierwszej strony
page = reader.pages[0]
text = page.extract_text()

print(text)

Metoda extract_text() pozwala na pobranie tekstu z wybranej strony w formie ciągu znaków. Jest to przydatne, gdy chcemy analizować lub przetwarzać zawartość dokumentu PDF.

Praktyczne zastosowania PyPDF

PyPDF jest niezwykle wszechstronnym narzędziem, które znajduje zastosowanie w wielu różnych scenariuszach. Oto kilka przykładów, gdzie możesz wykorzystać tę bibliotekę:

Łączenie raportów PDF: Jeśli masz wiele raportów generowanych w różnych plikach PDF, możesz je połączyć w jeden dokument, ułatwiając tym samym ich przeglądanie i archiwizowanie.
Przetwarzanie formularzy PDF: Jeśli Twoja firma otrzymuje wypełnione formularze w formacie PDF, możesz zautomatyzować ich przetwarzanie, wyodrębniając odpowiednie dane i zapisując je w bardziej przetwarzalnym formacie.
Przygotowanie plików do druku: Obracanie stron, usuwanie zbędnych elementów czy dodawanie numerów stron to tylko kilka z operacji, które pozwolą przygotować dokumenty PDF do profesjonalnego druku.

Podsumowanie

PyPDF to wyjątkowa biblioteka, która pozwala na szybkie i wygodne manipulowanie plikami PDF w Pythonie. Dzięki funkcjom takim jak łączenie plików, dzielenie dokumentów, obracanie stron czy wyodrębnianie tekstu, staje się niezastąpionym narzędziem w pracy z dokumentami. Jak widać, możliwości są naprawdę ogromne! Mamy nadzieję, że ten artykuł pomógł Ci lepiej zrozumieć, jak wykorzystać PyPDF w codziennych zadaniach programistycznych. Czas na Twoje pierwsze projekty z PDF!

Przeczytaj również, bo warto!