Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.
Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.
In den Einstellungen wird hinterlegt, welche Variante von Tesseract verwendet wird und welche Sprachen für die Texterkennung zur Verfügung stehen.
Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.
x
eine Höhe von ca. 10 Pixeln hat.