Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.
Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.
Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.
x
eine Höhe von ca. 10 Pixeln hat.Damit Tesseract verwendet werden kann, muss es auf das System installiert und funktionsfähig sein. Es muss eine 4er Version installiert werden und darf keine alpha/beta Version sein. (Falls in der Konfiguration unter "Verwendete Tesseract Plugin": Windows steht, ist eine installation nicht erforderlich.)
Linux/Mac Anwender müssen zusätzlich zum Plugin das Programm Tesseract 4 installieren. Siehe dafür Tesseract Installieren.
Für Windows bietet die Uni Mannheim entsprechende Installer an. Es sollte die Tesseract 4 Version installiert werden. Siehe dafür Tesseract für Windows Installieren.
Status | Werte | Information/Fehlerbehandlung |
---|---|---|
Verwendete Tesseract Plugin | Installiert | Tesseract muss auf ihr System installiert werden |
Windows | Wenn das interne Tesseract funktioniert, müssen keine weiteren Einstellungen vorgenommen werden. Kann nur auf Windows-Systemen funktionieren, kann aber nicht garantiert werden. Tesseract muss nicht installiert werden. | |
Status | ok | Tesseract wurde korrekt konfiguriert und kann verwendet werden. |
Tesseract konnte nicht gefunden werden.[...] | Überprüfen Sie den Pfad zur Tesseract installation oder fügen Sie Tesseract in den Umgebungsvariable hinzu. | |
Tesseract konnte die Sprachedatei eng nicht finden.[...] | Überprüfen Sie den Pfad zu den Sprachdateien. Es muss immer eine Englische Sprachdatei vorhanden sein. | |
Das Tesseract Plugin funktioniert nicht korrekt,[...] | Es sollte eine 4er Tesseract Version installiert werden. | |
Version | tesseract v4.1.0 | Es wurde mit einer 4er Tesseract getestet. Höhere oder niedrigere Version kann einen Reibungslosen ablauf nicht garantiert werden! |
Sprachdateien gefunden | [deu, eng] | Es funktioniert einwandfrei. |
Es werden keine Sprachateien gefunden. | Überprüfen Sie den Pfad zu den .traineddata Dateien. Normalerweise befindet sich im Tesseract Installationsverzeichnis einen tessdata Ordner mit den entsprechenden Dateien. Für Tesseract Windows Plugin wird der lang/tessdata Ordner vom PDFC Installationsverzeichnis verwendet. Standardmäßig wird Englisch mit ausgeliefert und befindet sich im PDFC Installationsverzeichnis. |
Falls außer Englisch noch weitere Sprachen erkannt werden sollen, so müssen die entsprechenden Sprachdateien manuell installiert werden. Bitte besuchen Sie hierfür https://github.com/tesseract-ocr/tessdata und laden Sie die entsprechenden *.traineddata Dateien herunter. Anschließend müssen diese Dateien in den <installation folder>/lang/tessdata
Ordner kopiert oder verschoben werden. Zum Abschluss muss der i-net PDFC Dienst neu gestartet werden.
Damit Tesseract mit PDFC ordnungsgemäß funktioniert, kann es sein das es parametriert werden muss. Nachdem alle Einstellungen gemacht wurden, wird mit dem Klick auf Anwenden der Status aktualisiert.
Hinweis: Für das Tesseract Windows muss keine Einstellung gemacht werden.
Es sollte den Installationspfad der installierten Tesseract Version angegeben werden. Wenn diese Option korrekt gesetzt wurde, kann Tesseract verwendet werden. Sollte Tesseract in den Umgebungsvariablen hinzugefügt worden sein oder befindet sich in einem Standardpfad (/usr/bin/tesseract
oder /usr/local/bin/tesseract
), reicht es an dieser Stelle die Default-Einstellung tesseract
aus.
Standard (leeres Feld) ist es im PDFC Installtionsverzeichnis lang/tessdata. Wenn statt dessen einen anderen Pfad genommen werden soll, muss der entsprechende Ordner angegeben werden. Es wird ein Ordner mit den .traineddata erwartet.
Hinweis: Es wird immer die Englische Sprachdatei benötigt.