Vergleichsprofile

Filter und Optimierungen

Texterkennung (OCR)

Dieser Filter nutzt das Texterkennungs-Plugin, um Text aus Bildern und Zeichnungen zu extrahieren. Voraussetzung hierfür sind ein aktiviertes OCR-Plugin und die benötigten Sprachdateien. Details hierzu finden Sie beim OCR-Plugin.

Fehlertoleranz

Computergestützte Texterkennung ist meist nicht völlig Fehlerfrei. Diese Fehler entstehen zum Beispiel durch zu kleine Schriftgrößen, ungerade gescannte Seiten, Hintergrundrauschen durch Bilder oder mehrdeutige Zeichen. Um diesem Problem zu begegnen kann die Fehlertoleranz für den Vergleich festgelegt werden.

  • Keine - vergleicht alle Zeichen wie sie erkannt wurde (nicht empfohlen)
  • Ähnliche Zeichen - toleriert Fehler bei Zeichen, die gleich aussehen. Ein Beispiel hierfür sind das lateinische 'a' und das russische 'а'. Ein vollständige Liste dieser Zeichen finden Sie hier http://www.unicode.org/reports/tr36/confusables.txt
  • Typische Erkennungsfehler - toleriert Fehler bei Zeichen die auf verrauschtem Hintergrund ähnlich aussehen. Diese Toleranz basiert auf Erfahrungen und Tests, da es hierfür keine öffentliche Empfehlung gibt. Ein Beispiel sind das deutsche Eszett 'ß' und das große 'B'.
  • Typische Erkennungsfehler in verzerrtem Text - identisch zu 'Typische Erkennungsfehler' allerdings mit Erweiterungen für leicht rotierten oder verzerrten Text. Solche Verzerrungen treten häufig beim Einscannen von Dokumenten auf.