Texterkennung

Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.

Tesseract OCR

Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.

Vorraussetzungen

Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.

  • Tesseract muss installiert und funktionsfähig sein. Die Funktionsfähigkeit kann über die Konfiguration bzw. Recovery getestet werden.
  • Es muss eine Sprache festgelegt werden. (Das übernimmt automatisch das Plugin LanguageDetection, Vorraussetzung ein Dokument enthält Text als solches) Bei falsch erkannter Sprache kann diese manuell eingestellt werden.
  • Nur die Sprache Englisch wird standardmäßig mit ausgeliefert, weitere Sprachen müssen selbst hinzugefügt werden. (Sollte die Sprache fehlen, wird Englisch verwendet)
  • Die Qualität der Bilder muss mindestens 300 DPI entsprechen. Eine Auflösung von 300 DPI ist erreicht, wenn der kleine Buchstabe x eine Höhe von ca. 10 Pixeln hat.
  • Hintergrundfarbe sollte einfarbig sein. Rauschen im Bild sollte vermieden werden.
  • Die Texte sollten horizontal ausgerichtet sein.
  • Die Schriftart sollte nicht exotisch sein. Gut funktionierende Schriftarten sind in dieser Liste enthalten.
  • Der Text sollte nicht per Hand geschrieben sein.

Weitere Sprachen hinzufügen

Falls außer Englisch noch weitere Sprachen erkannt werden sollen, so müssen die entsprechenden Sprachdateien manuell installiert werden. Bitte besuchen Sie hierfür https://github.com/tesseract-ocr/tessdata und laden Sie die entsprechenden *.traineddata Dateien herunter. Anschließend müssen diese Dateien in den <installation folder>/lang/tessdata Ordner kopiert oder verschoben werden. Zum Abschluss muss der i-net PDFC Dienst neu gestartet werden.

Abschließende Hinweise

Die Verwendung von Texterkennung Software verbraucht einen großen Teil an Ressourcen. Wenn häufiger Engpässe entstehen, dann sollte dieses Plugin deaktiviert werden.

Tesseract (Installed Plugin)

Damit Tesseract verwendet werden kann, muss es auf das System installiert und funktionsfähig sein. Es muss eine 4er Version installiert werden und darf keine alpha/beta Version sein.

Linux/Mac

Linux/Mac Anwender müssen zusätzlich zum Plugin das Programm Tesseract 4 installieren. Siehe dafür Tesseract Installieren.

Windows

Für Windows bietet die Uni Mannheim entsprechende Installer an. Es sollte die Tesseract 4 Version installiert werden. Siehe dafür Tesseract für Windows Installieren.