MC, 2025

Polecenie Linux uniq – Jak Usuwać Duplikaty z Plików w Systemie Linux?

Linux to system operacyjny pełen potężnych narzędzi, które pomagają w codziennej pracy z plikami i danymi. Jednym z takich narzędzi jest polecenie uniq, które jest idealne do usuwania powtarzających się linii z plików tekstowych. Często spotykamy się z sytuacjami, gdy nasz plik zawiera zbędne duplikaty danych, a uniq pozwala szybko je usunąć. W tym artykule dowiesz się, jak działa polecenie Linux uniq, jakie ma opcje i jak wykorzystać je w praktyce.

Co to jest polecenie Linux uniq?

Polecenie uniq w systemie Linux służy do usuwania duplikujących się linii w pliku tekstowym. Najczęściej używa się go w sytuacjach, kiedy potrzebujemy uzyskać listę unikalnych wartości w pliku, na przykład listy użytkowników, pliku logów czy wyników zebranych danych. uniq działa na zasadzie porównywania kolejnych linii w pliku i zwraca tylko te, które pojawiły się po raz pierwszy. Warto jednak pamiętać, że uniq domyślnie działa tylko na sąsiednich liniach, co oznacza, że dla uzyskania pełnych wyników plik powinien być posortowany.

Podstawowe użycie polecenia uniq

Podstawowa składnia polecenia uniq jest bardzo prosta. Aby usunąć duplikaty z pliku, wystarczy wydać poniższe polecenie:

uniq plik.txt

Po wykonaniu tego polecenia, uniq wypisze wszystkie unikalne linie w pliku plik.txt. Warto jednak zauważyć, że wynik tego polecenia może nie zawsze być idealny, jeżeli nasz plik zawiera nieposortowane dane. Aby uzyskać lepszy wynik, zwykle warto połączyć polecenie uniq z poleceniem sort, które posortuje dane przed ich przetworzeniem.

Jak sortować dane przed użyciem uniq?

Jeśli chcesz usunąć duplikaty z pliku i upewnić się, że będą one usuwane we właściwej kolejności, użyj polecenia sort przed uniq. Możesz to zrobić w następujący sposób:

sort plik.txt | uniq

W tym przypadku polecenie sort najpierw posortuje wszystkie linie w pliku, a następnie uniq usunie duplikaty. Dzięki temu uzyskasz pełną listę unikalnych linii w pliku.

Przykłady użycia polecenia uniq

Teraz przyjrzymy się kilku praktycznym przykładom użycia polecenia uniq, które mogą okazać się bardzo pomocne w różnych sytuacjach.

1. Usuwanie duplikatów w pliku tekstowym

Załóżmy, że masz plik tekstowy o nazwie lista.txt, który zawiera listę produktów zakupionych w sklepie, ale niektóre produkty zostały zapisane wielokrotnie. Oto jak możesz usunąć duplikaty z tego pliku:

uniq lista.txt

Po wykonaniu tego polecenia uniq usunie wszystkie powtarzające się linie, a w wynikowym pliku znajdą się tylko unikalne produkty.

2. Zliczanie wystąpień linii z duplikatami

Polecenie uniq może również liczyć, ile razy każda linia występuje w pliku. Aby uzyskać liczbę wystąpień każdej linii, użyj opcji -c. Na przykład:

uniq -c lista.txt

W wyniku tego polecenia każda linia w pliku zostanie poprzedzona liczbą, która informuje, ile razy ta linia występuje w oryginalnym pliku.

3. Usuwanie tylko powtarzających się linii, a nie wszystkich duplikatów

Jeśli chcesz usunąć tylko duplikaty, ale pozostawić jedną kopię powtarzających się linii, możesz użyć opcji -d. Na przykład:

uniq -d lista.txt

Wynikiem będzie lista tylko tych linii, które występują w pliku więcej niż raz. W ten sposób możesz łatwo zidentyfikować, które elementy w Twoim pliku są powtarzane.

4. Ignorowanie wielkości liter przy porównywaniu linii

Jeśli zależy Ci na tym, by przy porównywaniu linii nie rozróżniać wielkości liter, możesz użyć opcji -i. Dzięki temu uniq zignoruje różnice między małymi i dużymi literami:

uniq -i lista.txt

To bardzo przydatna opcja, jeśli masz plik z danymi, które mogą być zapisane w różnych przypadkach (np. "apple" i "Apple"), ale chcesz traktować je jako tę samą linię.

5. Usuwanie duplikatów z pliku w czasie rzeczywistym

Jeśli chcesz na bieżąco filtrować duplikaty, możesz wykorzystać potok do przesyłania danych do polecenia uniq. Na przykład, jeśli masz polecenie, które generuje duplikujące się dane, możesz je bezpośrednio przekazać do uniq:

cat lista.txt | uniq

W tym przypadku cat lista.txt wyświetli zawartość pliku, a następnie wynik zostanie przesłany do uniq, który usunie powtarzające się linie.

Podsumowanie

Polecenie uniq w systemie Linux to bardzo przydatne narzędzie, które umożliwia usuwanie duplikujących się linii w plikach tekstowych. Dzięki różnym opcjom, takim jak -c, -d, czy -i, możesz dostosować sposób działania tego polecenia do swoich potrzeb. uniq jest świetnym rozwiązaniem, gdy masz do czynienia z plikami zawierającymi powtarzające się dane, i chcesz szybko uzyskać ich unikalną wersję.

Pamiętaj, że polecenie uniq działa najlepiej w połączeniu z poleceniem sort, zwłaszcza gdy chcesz uzyskać pełną kontrolę nad kolejnością i strukturą danych. Warto także eksperymentować z różnymi opcjami, aby odkryć, jak najlepiej dostosować działanie uniq do swoich zadań.

Przeczytaj również, bo warto!