Jak dobre jest rozpoznawanie tekstu OCR w dokumencie zapisanym w PDF?

Rozpoznawanie tekstu OCR w dokumencie zapisanym w PDF

Typowe oprogramowanie służące do skanowania dokumentów tworzy obraz danego dokumentu. Nie zapisuje tekstu w postaci edytowalnej, który można przeszukiwać. Jeśli użytkownik chce tworzyć inteligentne dokumenty, które może edytować, wyszukiwać, ponownie wykorzystywać lub udostępniać w swoim archiwum, wówczas będzie potrzebował innego narzędzia. W takiej sytuacji pomocne jest optyczne rozpoznawanie znaków - OCR.

OCR przekształca skany w edytowalne dokumenty z możliwością przeszukiwania

OCR przekształca skany w edytowalne dokumenty umożliwiające wyszukiwanie danego tektu. Zrealizowane jest to poprzez konwersję statycznych obrazów słów na rzeczywisty, możliwy do wyszukania tekst.

Dzisiejsze silniki OCR są zaaawansowanymi narzędziami, które staraja się wykryć wszystkie znaki w dokumencie. Jednak z natury takie rozpoznanie nie jest skutecznie w 100%. Często zależy to od wielu czynników np. jakości zeskanowaniego dokumnetu, rodzaju oprogramowania OCR i wielu innych. Co oznacza, że należy sprawdzić wynikowy dokument. Można przejrzeć cały dokument, jednak to wymaga dużo czasu. Są jednak pewne elementy, o których warto wiedzieć, czy wymagają poprawy.

Przekształcenie ukrytego tekstu ("hidden" text OCR), w tekst, który można wyświetlić

Z technicznego punktu widzenia taki tekst nazywany jest ukrytym tekstem ("hidden text") w pliku PDF tak jak użytkownik zwykle widzi obraz.

Edytory PDF są "ukryte" lub "siedzące" za obrazem. Zazwyczaj pierwszą czynnością jest skopiowanie i wklejenie tekstu z wynikowego pliku PDF do programu Word w celu jego odczytania lub edycji. Jest jednak na to lepszy sposób.

Program Foxit PhantomPDF oferuje przydatną funkcję, która pozwala pozostać w edytorze PDF. Wystarczy kliknąć, w opcję Text Viewer, aby zobaczyć tekst OCR.

W programie Foxit używająć Text Viewer można pracować na wszystkich dokumentach PDF w trybie czystego tekstu. Takie działania umożliwia łatwe ponowne wykorzystanie tekstu rozproszonego między obrazami i tabelami. Dodatkowo narzędzie działa jak Notatnik.

Aby przejść do trybu wyświetlania tekstu należy wykonać jedną z następujących czynności:

Wybrać opcję: View -> Document Views ->Text Viewer
Nacisnąć klawisze klawiatury CTRL + 6

Następnie, kiedy użytkownik przejrzy tekst i chce poprawić błędy, może to zrobić przy użyciu PhantomPDF, w celu wyedytowania wszystkiego co wymaga zmiany.

Powrót