Die computergestützte Texterkennung via OCR ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig bei gescannten Dokumenten eingesetzt. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien ist bei den jeweiligen Filtern dokumentiert.
Das OCR in INETAPP verwendet Tesseract und setzt mindestens die Version 4 voraus. Die Konfiguration hängt vom Betriebssystem ab, auf dem der INETAPP-Server installiert ist. Diese Konfigurationsseite zeigt hauptsächlich Informationen über den Status der Tesseract-Verfügbarkeit an:
Hinweis: Tesseract 4 und 5 werden unterstützt. Dabei darf es sich nicht um Alpha oder Beta Versionen handeln.
Der Abschnitt Aktueller Status spiegelt Informationen aus dem Backend-System wider und zeigt an, ob Tesseract funktionsfähig ist.
Das Paket Visual C++ Redistributable 2015 muss auf dem Windows-System installiert werden, was auf eine der folgenden Arten geschehen kann:
choco install vcredist2015
Für die Details der benutzerdefinierten Installationen von Tesseract 5 auf Linux- und Windows-Systemen schauen Sie bitte hier. macOS-Benutzer können in der Regel einen der folgenden Befehle verwenden, um Tesseract 5 über den Paketmanager MacPorts oder Homebrew zu installieren:
sudo port install tesseract # or brew install tesseract
Sollen neben Englisch noch weitere Sprachen unterstützt werden, müssen die entsprechenden Sprachdateien manuell installiert werden, indem die entsprechenden *.traineddata
-Dateien geladen werden. Anschließend müssen diese Dateien in den Ordner <Installation>/lang/tessdata
oder den benutzerdefinierten Pfad verschoben werden. Abschließend muss der i-net PDFC-Server neu gestartet werden.
tesseract
-Dateiname ausreichen. Dieser Eintrag wird nur für die Tesseract-Variante Benutzerdefinierte Installation angezeigt.lang/tessdata
verwendet, wenn der Wert nicht gesetzt wurde.