Tesseract

Die computergestützte Texterkennung via OCR ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig bei gescannten Dokumenten eingesetzt. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien ist bei den jeweiligen Filtern dokumentiert.

Das OCR in INETAPP verwendet Tesseract und setzt mindestens die Version 4 voraus. Die Konfiguration hängt vom Betriebssystem ab, auf dem der INETAPP-Server installiert ist. Diese Konfigurationsseite zeigt hauptsächlich Informationen über den Status der Tesseract-Verfügbarkeit an:

Hinweis: Tesseract 4 und 5 werden unterstützt. Dabei darf es sich nicht um Alpha oder Beta Versionen handeln.

Aktueller Status

Der Abschnitt Aktueller Status spiegelt Informationen aus dem Backend-System wider und zeigt an, ob Tesseract funktionsfähig ist.

  • Tesseract-Variante: die Variante, die verwendet wird, um Tesseract-Funktionen bereitzustellen. Kann entweder Windows oder Benutzerdefinierte Installation sein. Eine benutzerdefinierte Installation ist auf allen Nicht-Windows-Betriebssystemen erforderlich.
  • Status: sollte OK sein, wenn es keine Probleme gibt und Tesseract verwendet werden kann. Andernfalls wird ein Fehler angezeigt.
  • Version: die Version von Tesseract, die vom Plugin erkannt wird. Andernfalls wird eine Fehlermeldung angezeigt.
  • Verfügbare Sprachen: eine Liste der Sprachen, die von den Einstellungen des Plugins erkannt werden. Andernfalls wird eine Fehlermeldung angezeigt.

Tesseract-Variante: Windows

Das Paket Visual C++ Redistributable 2015 muss auf dem Windows-System installiert werden, was auf eine der folgenden Arten geschehen kann:

Tesseract-Variante: Benutzerdefinierte Installation

Für die Details der benutzerdefinierten Installationen von Tesseract 5 auf Linux- und Windows-Systemen schauen Sie bitte hier. macOS-Benutzer können in der Regel einen der folgenden Befehle verwenden, um Tesseract 5 über den Paketmanager MacPorts oder Homebrew zu installieren:

sudo port install tesseract
 
# or
 
brew install tesseract

Zusätzliche Sprachen

Sollen neben Englisch noch weitere Sprachen unterstützt werden, müssen die entsprechenden Sprachdateien manuell installiert werden, indem die entsprechenden *.traineddata-Dateien geladen werden. Anschließend müssen diese Dateien in den Ordner <Installation>/lang/tessdata oder den benutzerdefinierten Pfad verschoben werden. Abschließend muss der i-net PDFC-Server neu gestartet werden.

Einstellungen

  • Ausführbare Tesseract-Datei: der Pfad und Dateinamen der Tesseract-Binärdatei. Wenn es Teil der PATH-Umgebung ist, sollte nur der tesseract-Dateiname ausreichen. Dieser Eintrag wird nur für die Tesseract-Variante Benutzerdefinierte Installation angezeigt.
  • Pfad zu den '.traineddata'-Sprachdateien: ein Pfad zu den Trainingsdateien von Tesseract. Es wird der Standardordner lang/tessdata verwendet, wenn der Wert nicht gesetzt wurde.
    • Hinweis: Die englische Sprachdatei ist immer erforderlich.