Texterkennung

Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.

Tesseract OCR

Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.

Vorraussetzungen

Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.

  • Tesseract muss installiert und funktionsfähig sein. Die Funktionsfähigkeit kann über die Konfiguration bzw. Recovery getestet werden.
  • Es muss eine Sprache festgelegt werden. (Das übernimmt automatisch das Plugin LanguageDetection, Vorraussetzung ein Dokument enthält Text als solches) Bei falsch erkannter Sprache kann diese manuell eingestellt werden.
  • Nur die Sprache Englisch wird standardmäßig mit ausgeliefert, weitere Sprachen müssen selbst hinzugefügt werden. (Sollte die Sprache fehlen, wird Englisch verwendet)
  • Die Qualität der Bilder muss mindestens 300 DPI entsprechen. Eine Auflösung von 300 DPI ist erreicht, wenn der kleine Buchstabe x eine Höhe von ca. 10 Pixeln hat.
  • Hintergrundfarbe sollte einfarbig sein. Rauschen im Bild sollte vermieden werden.
  • Die Texte sollten horizontal ausgerichtet sein.
  • Die Schriftart sollte nicht exotisch sein. Gut funktionierende Schriftarten sind in dieser Liste enthalten.
  • Der Text sollte nicht per Hand geschrieben sein.

Tesseract Windows

Als Vorrausetzung muss das Visual C++ Redistributable 2015 Package auf dem Windows System installiert sein.

Es kann nachträglich installiert werden über:

Tesseract installieren

Damit Tesseract verwendet werden kann, muss es auf das System installiert und funktionsfähig sein. Es muss eine 4er Version installiert werden und darf keine alpha/beta Version sein. (Falls in der Konfiguration unter "Verwendete Tesseract Plugin": Windows steht, ist eine installation nicht erforderlich.)

Linux/Mac

Linux/Mac Anwender müssen zusätzlich zum Plugin das Programm Tesseract 4 installieren. Siehe dafür Tesseract Installieren.

Windows

Für Windows bietet die Uni Mannheim entsprechende Installer an. Es sollte die Tesseract 4 Version installiert werden. Siehe dafür Tesseract für Windows Installieren.

Konfiguration

Status Werte Information/Fehlerbehandlung
Verwendete Tesseract Plugin Installiert Tesseract muss auf dem Server System installiert werden
Windows Wenn das interne Tesseract funktioniert und es müssen keine weiteren Einstellungen vorgenommen werden. Kann nur auf Windows-Systemen funktionieren, kann aber nicht garantiert werden. Tesseract muss nicht installiert werden.
Status ok Tesseract wurde korrekt konfiguriert und kann verwendet werden.
Tesseract konnte nicht gefunden werden.[...] Überprüfen Sie den Pfad zur Tesseract installation oder fügen Sie Tesseract in den Umgebungsvariable hinzu.
Tesseract konnte die Sprachedatei eng nicht finden.[...] Überprüfen Sie den Pfad zu den Sprachdateien. Es muss immer eine Englische Sprachdatei vorhanden sein.
Das Tesseract Plugin funktioniert nicht korrekt,[...] Es sollte eine 4er Tesseract Version installiert werden.
Version tesseract v4.1.0 Es wurde mit einer 4er Tesseract getestet. Höhere oder niedrigere Version kann einen Reibungslosen ablauf nicht garantiert werden!
Sprachdateien gefunden [deu, eng] Es funktioniert einwandfrei.
Es werden keine Sprachateien gefunden. Überprüfen Sie den Pfad zu den .traineddata Dateien. Normalerweise befindet sich im Tesseract Installationsverzeichnis einen tessdata Ordner mit den entsprechenden Dateien. Für Tesseract Windows Plugin wird der lang/tessdata Ordner vom PDFC Installationsverzeichnis verwendet. Standardmäßig wird Englisch mit ausgeliefert und befindet sich im PDFC Installationsverzeichnis.

Weitere Sprachen hinzufügen

Falls außer Englisch noch weitere Sprachen erkannt werden sollen, so müssen die entsprechenden Sprachdateien manuell installiert werden. Bitte besuchen Sie hierfür https://github.com/tesseract-ocr/tessdata und laden Sie die entsprechenden *.traineddata Dateien herunter. Anschließend müssen diese Dateien in den <installation folder>/lang/tessdata Ordner kopiert oder verschoben werden. Zum Abschluss muss der i-net PDFC Dienst neu gestartet werden.

Einstellungen

Damit Tesseract mit PDFC ordnungsgemäß funktioniert, kann es sein das es parametriert werden muss. Nachdem alle Einstellungen gemacht wurden, wird mit dem Klick auf Anwenden der Status aktualisiert.

Hinweis: Für das Tesseract Windows muss keine Einstellung gemacht werden.

Tesseract Programm

Es sollte den Installationspfad der installierten Tesseract Version angegeben werden. Wenn diese Option korrekt gesetzt wurde, kann Tesseract verwendet werden. Sollte Tesseract in den Umgebungsvariablen hinzugefügt worden sein oder befindet sich in einem Standardpfad (/usr/bin/tesseract oder /usr/local/bin/tesseract), reicht es an dieser Stelle die Default-Einstellung tesseract aus.

Ordner der Sprachdateien.

Standard (leeres Feld) ist es im PDFC Installtionsverzeichnis lang/tessdata. Wenn statt dessen einen anderen Pfad genommen werden soll, muss der entsprechende Ordner angegeben werden. Es wird ein Ordner mit den .traineddata erwartet.

Hinweis: Es wird immer die Englische Sprachdatei benötigt.