MC, 2025

Python PyPDF2: Jak Wykorzystać Tę Bibliotekę w Pracy z PDF?

Praca z plikami PDF w Pythonie może wydawać się skomplikowana, zwłaszcza jeśli nigdy wcześniej nie korzystałeś z odpowiednich bibliotek. Na szczęście istnieje prosta i potężna biblioteka, która ułatwia manipulowanie plikami PDF – to PyPDF2! W tym artykule przedstawimy Ci, jak korzystać z PyPDF2 w Pythonie, pokazując przykłady różnych operacji, takich jak łączenie, dzielenie czy ekstrakcja tekstu. Jeśli chcesz dowiedzieć się, jak stać się ekspertem w pracy z PDF-ami, zapraszam do lektury!

Co to jest PyPDF2?

PyPDF2 to popularna biblioteka w Pythonie, która pozwala na manipulowanie plikami PDF. Można z jej pomocą łatwo łączyć kilka plików PDF w jeden, dzielić je na mniejsze części, odczytywać zawartość tekstową, a nawet szyfrować i deszyfrować dokumenty. Warto dodać, że PyPDF2 nie pozwala na edytowanie zawartości pliku PDF (np. zmiana tekstu czy dodawanie obrazków), ale daje ogromne możliwości, jeśli chodzi o manipulację samą strukturą pliku.

Do jej instalacji wystarczy użyć pip:

pip install pypdf2

Po zainstalowaniu, będziesz mógł zacząć korzystać z tej biblioteki w swoich projektach Pythonowych!

Jakie operacje możemy wykonać przy pomocy PyPDF2?

PyPDF2 oferuje szeroką gamę funkcji do pracy z plikami PDF. Przyjrzyjmy się kilku z nich, które mogą być szczególnie przydatne w codziennej pracy.

1. Łączenie plików PDF

Jedną z najczęściej wykorzystywanych funkcji PyPDF2 jest łączenie kilku plików PDF w jeden. Może się to przydać np. gdy mamy kilka raportów i chcemy stworzyć jeden dokument. Oto jak to zrobić:

import PyPDF2

# Otwieramy pliki PDF
pdf1 = open('plik1.pdf', 'rb')
pdf2 = open('plik2.pdf', 'rb')

# Tworzymy obiekty PDF reader
pdf_reader1 = PyPDF2.PdfReader(pdf1)
pdf_reader2 = PyPDF2.PdfReader(pdf2)

# Tworzymy obiekt PDF writer
pdf_writer = PyPDF2.PdfWriter()

# Dodajemy strony z obu plików PDF
for page_num in range(len(pdf_reader1.pages)):
    page = pdf_reader1.pages[page_num]
    pdf_writer.add_page(page)

for page_num in range(len(pdf_reader2.pages)):
    page = pdf_reader2.pages[page_num]
    pdf_writer.add_page(page)

# Zapisujemy połączony plik PDF
with open('połączony.pdf', 'wb') as output_pdf:
    pdf_writer.write(output_pdf)

# Zamykamy pliki
pdf1.close()
pdf2.close()

W tym przykładzie łączymy dwie strony PDF w jeden dokument. Funkcja PdfReader pozwala na wczytanie plików, a PdfWriter umożliwia zapisanie nowego połączonego pliku PDF. Proste, prawda?

2. Dzielnie pliku PDF na pojedyncze strony

Jeśli chcemy podzielić plik PDF na poszczególne strony, PyPDF2 daje nam także taką możliwość. Oto przykładowy kod:

import PyPDF2

# Otwieramy plik PDF
pdf_file = open('plik.pdf', 'rb')

# Tworzymy obiekt PDF reader
pdf_reader = PyPDF2.PdfReader(pdf_file)

# Tworzymy obiekt PDF writer
pdf_writer = PyPDF2.PdfWriter()

# Dzielimy plik PDF na poszczególne strony
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)

    # Zapisujemy pojedynczą stronę jako nowy plik PDF
    with open(f'strona_{page_num + 1}.pdf', 'wb') as output_pdf:
        pdf_writer.write(output_pdf)

# Zamykamy plik
pdf_file.close()

Ten kod dzieli plik PDF na pojedyncze strony, tworząc osobne pliki PDF dla każdej z nich. To świetna funkcja, jeśli potrzebujesz podzielić duży dokument na mniejsze części.

3. Ekstrakcja tekstu z pliku PDF

Inną przydatną funkcją PyPDF2 jest możliwość ekstrakcji tekstu z plików PDF. Choć nie jest to idealne rozwiązanie w przypadku plików zawierających obrazy lub skanowane dokumenty, w przypadku dokumentów tekstowych PyPDF2 doskonale radzi sobie z wydobywaniem treści. Przykład:

import PyPDF2

# Otwieramy plik PDF
pdf_file = open('plik.pdf', 'rb')

# Tworzymy obiekt PDF reader
pdf_reader = PyPDF2.PdfReader(pdf_file)

# Ekstrakcja tekstu z pierwszej strony
page = pdf_reader.pages[0]
text = page.extract_text()

print(text)

# Zamykamy plik
pdf_file.close()

W tym przykładzie wyciągamy tekst z pierwszej strony pliku PDF. Funkcja extract_text() zwraca zawartość tekstową strony. Jest to szczególnie przydatne, jeśli chcesz przetwarzać dane zawarte w dokumentach PDF, np. przeprowadzić analizę tekstu.

4. Szyfrowanie i deszyfrowanie plików PDF

PyPDF2 pozwala również na szyfrowanie i deszyfrowanie plików PDF. Jest to przydatne, gdy chcemy zabezpieczyć nasz dokument przed nieautoryzowanym dostępem. Poniżej przykład szyfrowania pliku PDF:

import PyPDF2

# Otwieramy plik PDF
pdf_file = open('plik.pdf', 'rb')

# Tworzymy obiekt PDF reader
pdf_reader = PyPDF2.PdfReader(pdf_file)

# Tworzymy obiekt PDF writer
pdf_writer = PyPDF2.PdfWriter()

# Kopiujemy wszystkie strony do PDF writer
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)

# Szyfrujemy dokument
pdf_writer.encrypt('hasło')

# Zapisujemy zaszyfrowany plik PDF
with open('zaszyfrowany.pdf', 'wb') as output_pdf:
    pdf_writer.write(output_pdf)

# Zamykamy plik
pdf_file.close()

W tym przypadku używamy metody encrypt(), aby dodać hasło do pliku PDF. Po zaszyfrowaniu plik staje się niedostępny bez podania poprawnego hasła, co zapewnia dodatkową ochronę.

Podsumowanie

PyPDF2 to niezwykle przydatna biblioteka w Pythonie do pracy z plikami PDF. Umożliwia manipulowanie dokumentami PDF w prosty sposób, pozwalając na łączenie plików, dzielenie ich, ekstrakcję tekstu, a także szyfrowanie i deszyfrowanie plików. Dzięki tej bibliotece możesz łatwo zarządzać plikami PDF w swoich aplikacjach i automatyzować procesy, które wcześniej mogły wydawać się czasochłonne i skomplikowane.

Wszystko, co musisz zrobić, to zainstalować PyPDF2, a potem wykorzystać jej funkcje w zależności od potrzeb. Przykłady w tym artykule powinny dać Ci solidne podstawy do rozpoczęcia pracy z plikami PDF w Pythonie. Powodzenia w programowaniu!

Przeczytaj również, bo warto!