Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.
Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.
Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.
x
eine Höhe von ca. 10 Pixeln hat.
Falls außer Englisch noch weitere Sprachen erkannt werden sollen, so müssen die entsprechenden Sprachdateien manuell installiert werden. Bitte besuchen Sie hierfür https://github.com/tesseract-ocr/tessdata und laden Sie die entsprechenden *.traineddata Dateien herunter. Anschließend müssen diese Dateien in den <installation folder>/lang/tessdata
Ordner kopiert oder verschoben werden. Zum Abschluss muss der i-net PDFC Dienst neu gestartet werden.
Die Verwendung von Texterkennung Software verbraucht einen großen Teil an Ressourcen. Wenn häufiger Engpässe entstehen, dann sollte dieses Plugin deaktiviert werden.
Damit Tesseract verwendet werden kann, muss es auf das System installiert und funktionsfähig sein. Es muss eine 4er Version installiert werden und darf keine alpha/beta Version sein.
Linux/Mac Anwender müssen zusätzlich zum Plugin das Programm Tesseract 4 installieren. Siehe dafür Tesseract Installieren.
Für Windows bietet die Uni Mannheim entsprechende Installer an. Es sollte die Tesseract 4 Version installiert werden. Siehe dafür Tesseract für Windows Installieren.