Texterkennung

Computergestützte Texterkennung (OCR) ist eine Methode, um Text aus Bildern und Zeichnungen zu extrahieren und in ein maschinenlesbares Format zu konvertieren. OCR wird häufig für Faxe oder gescannte Dokumente verwendet. i-net PDFC nutzt diese Technologie als Basis für verschiedene vorinstallierte Filter. Die genaue Beschreibung der einzelnen Szenarien sind bei den jeweiligen Filtern dokumentiert.

Tesseract OCR

Das OCR Basis-Plugin von i-net PDFC verwendete die quelloffene Software Tesseract als Standard für die Texterkennung. Die aktuelle Version 4 von Tesseract verwendet trainierte neuronale Netzwerke zu Erkennung und bietet damit eine sehr hohe Erkennungsrate für gedruckte Texte. Handschriftliche Texte werden nicht unterstützt.

In den Einstellungen wird hinterlegt, welche Variante von Tesseract verwendet wird und welche Sprachen für die Texterkennung zur Verfügung stehen.

Vorraussetzungen

Damit Tesseract bestmöglichste Ergebnisse liefern kann, werde einige Eigenschaften vorausgesetzt.

  • Tesseract muss installiert und funktionsfähig sein. Die Funktionsfähigkeit kann über die Konfiguration bzw. Recovery getestet werden.
  • Es muss eine Sprache festgelegt werden. (Das übernimmt automatisch das Plugin LanguageDetection, Vorraussetzung ein Dokument enthält Text als solches) Bei falsch erkannter Sprache kann diese manuell eingestellt werden.
  • Nur die Sprache Englisch wird standardmäßig mit ausgeliefert, weitere Sprachen müssen selbst hinzugefügt werden. (Sollte die Sprache fehlen, wird Englisch verwendet)
  • Die Qualität der Bilder muss mindestens 300 DPI entsprechen. Eine Auflösung von 300 DPI ist erreicht, wenn der kleine Buchstabe x eine Höhe von ca. 10 Pixeln hat.
  • Hintergrundfarbe sollte einfarbig sein. Rauschen im Bild sollte vermieden werden.
  • Die Texte sollten horizontal ausgerichtet sein.
  • Die Schriftart sollte nicht exotisch sein. Gut funktionierende Schriftarten sind in dieser Liste enthalten.
  • Der Text sollte nicht per Hand geschrieben sein.