System OCR – Automatyczne rozpoznawania tekstu

Poznajmy czym jest tytułowy OCR? Rozwinięcie skrótu – „optical character recognition” (optyczne rozpoznawanie znaków) sugeruje nam wykonywaną przez ten system czynność, ale nie objaśnia zasady jego działania, a przede wszystkim nie pokazuje korzyści z jego stosowania. W tym artykule autor wyjaśnia oba zagadnienia. Na początek stawia pytanie, gdzie ma zastosowanie optyczne rozpoznawanie znaków?

Cyfryzacja zasobów bibliotecznych
OCR jest rozwiązaniem problemu konieczności ręcznego przepisywania treści, nierzadko obszernych dokumentów, podczas wprowadzania ich do systemu. Jest to szczególnie istotne i pomocne podczas cyfryzacji zasobów bibliotecznych. Dzięki OCR już w chwili wgrywania zeskanowanego dokumentu – niezależnie czy jest on obrazem/zdjęciem (rozszerzenia .jpg, .png) czy też w formacie PDF – następuje rozpoznanie znaków i całych wyrazów, a nawet zdań. Pozwala to nie tylko na łatwe uzyskanie całego tekstu dokumentu, ale i umożliwia jego automatyczną klasyfikację, czy też ekstrakcję danych szczegółowych.

Digitalizacja dokumentów i faktur
To szczególnie praktyczne narzędzie przy wprowadzaniu faktur do obiegu dokumentów – jakim jest wspomniany OCR – nie tylko pozwala na przyspieszenie pracy, dzięki zastosowaniu zaawansowanych algorytmów AI, ale co niemniej ważne – umożliwia walidację danych otrzymanych na podstawie tekstu uzyskanego dzięki OCR.

Przyjrzyjmy się kolejnym ciekawym funkcjonalnościom, jak choćby: zaznaczanie fragmentu do skopiowania, w otwartym przez użytkownika dokumencie ze zdjęcia/obrazu, jak i z nieprzeszukiwalnych plików PDF czy na przykład: wyszukiwanie danego wyrażenia w tekście zeskanowanego dokumentu. Obie możliwości otrzymujemy dopiero w dokumencie przetworzonym przez OCR. Oczywistym staje się więc, fakt, że przetwarzanie dokumentów i praca z nimi, może stać się dużo prostsza i bardziej efektywna, dzięki technologii optycznego rozpoznawanie znaków.

Dobrym wzorem takiego zastosowania jest system OCR w NAVIGATOR, który umożliwia digitalizację faktur i dokumentów oraz przetwarzanie ich za pomocą zaawansowanych narzędzi data capture opartych o silnik AI.

Na czym polega OCR?

Jest to zaawansowany i wieloetapowy algorytm, który jest w stanie odróżnić w przetwarzanym dokumencie fragmenty tekstowe od tabel, czy pojawiających się często obrazów i znaków wodnych. Następnie każdy ze znaków jest przyporządkowany do znajomych mu wyrażeń (liczb, liter czy znaków specjalnych), a rozpoznane znaki zostają połączone w wyrazy i zdania, a często też w całe, logicznie brzmiące akapity.

Nie bez znaczenia pozostaje fakt, że każdy ze znaków otrzymuje informację o swoim położeniu w dokumencie, co nie tylko ułatwia wyszukiwanie i ‘zaznaczanie’, ale też pozwala na budowę rozwiązań opartych na sztucznej inteligencji, pomocnych w ekstrakcji informacji z przetwarzanego przez system dokumentu. Co ciekawe – zaawansowane wersje OCR są w stanie poradzić sobie także z krzywo zeskanowanym dokumentem lub nierówno wykonanym zdjęciem. Również drobne niedoskonałości znaków, nie stanowią przeszkody dla wysokiej jakości produktu.

Oczywiście – jak w każdym algorytmie – istnieje granica, po której przekroczeniu nie będzie możliwe poprawne odczytanie znaku, jeśli napis jest wyjątkowo niekompletny.

Programy korzystające z OCR
Przykładami oprogramowania korzystającego z OCR są programy stworzone przez największe światowe firmy, takie jak Amazon Textract, Google Books, czy też ABBY Finereader.

Jako ciekawostkę związaną z technologią OCR warto odnotować, iż jednym ze sposobów przygotowania tak zwanego zbioru uczącego (do nauki algorytmów rozpoznawania znaków) jest popularna reCAPTCHA – rozwiązanie służące zarówno do zwiększenia bezpieczeństwa stron internetowych, jak i do rozpoznawania fragmentów zeskanowanego tekstu przez użytkownika, a finalnie umożliwiające lepsze wskazanie algorytmowi różnych możliwości wyglądu znaków.

Co wpływa na skuteczność OCR ?
Liczba dostępnych na rynku rozwiązań do automatycznego rozpoznawania tekstu, jest spora – jednak ich jakość różni się znacząco od siebie.

Czym jest to spowodowane? Przede wszystkim użyciem różnych algorytmów do klasyfikacji znaków i obszarów tekstu, ale też zróżnicowaniem zbiorów uczących. Kluczowy w tym przypadku jest również poziom zniekształceń tekstu, który jest akceptowalny dla programu. Dostępne produkty różnią się także szybkością działania, co przecież nie pozostaje bez znaczenia – bo to znacząco wpływa na komfort użytkowania.

Podsumowanie
Mnogość zastosowań OCR oraz fakt, iż umożliwia korzystanie z innych usług automatyzujących pracę biurową, niewątpliwie świadczy o jego istotności. W ramach usług AI programu NAVIGATOR jest dostępny system OCR, więcej na jego temat można znaleźć w naszej bazie wiedzy.

Dodaj komentarz

Twój adres e-mail nie będzie opublikowany.

You may use these <abbr title="HyperText Markup Language">HTML</abbr> tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*