Vergleichsprofile für PDFC enthalten Parameter und Einstellungen für den Vergleich von Dokumenten. Verschiedene Vergleichsprofile können zu stark unterschiedlichen Ergebnissen beim Vergleich führen. Daher kann es notwendig sein, diese für bestimmte Szenarien anzupassen bzw. zu optimieren.
In der Fußleiste des Vergleichsprofil-Fensters haben Sie die Möglichkeit Profile zu verwalten. Dort kann das aktuell geöffnete Vergleichsprofil dupliziert, exportiert, veröffentlicht und gelöscht werden. Zusätzlich können Einstellungen eines Vergleichsprofiles importiert werden.
Hinweis: Auf diese Weise können beispielsweise Vergleichsprofile aus der i-net PDFC GUI exportiert und in den Server importiert werden. Dies funktioniert auch in die andere Richtung. Exportierte Vergleichsprofile können außerhalb der Anwendung bearbeitet werden, wenn z.B. Einstellungen benötigt werden, die sich nicht mit der Konfigurationsoberfläche einstellen lassen. Das können Kopf- und Fußzeilen sein, die über 100 Pixel hoch sind. Die möglichen Eigenschaften sind in den jeweiligen Tabellen zu finden.
Die von i-net PDFC mitgelieferte Vergleichsprofile können in der Konfiguration unter Vergleich>Profile aktiviert bzw. deaktiviert werden.
Jeder Nutzer mit administrativen Rechten oder dem Recht "Benutzer und Gruppen verwalten" kann eigene Profile für alle Nutzer oder auch nur bestimmte Nutzer oder Gruppen freigeben. Freigegebene Profile erscheinen bei anderen Nutzern in der Liste der Standardprofile. Ob ein Profil freigegeben wurde, wird ebenso in dieser Liste angezeigt. Einzig für alle freigegebene Profile erscheinen für normale Nutzer ohne diese Markierung. Damit kann diese Art der Freigabe verwendet werden, um weitere Standardprofile für alle Nutzer zu erzeugen.
Die Freigabe eines Profils kann jederzeit durch einen Administrator oder einen Nutzer mit dem Recht "Benutzer und Gruppen verwalten geändert oder zurückgezogen werden. Verändert werden kann ein solches Profil allerdings nur vom Eigentümer oder einem Administrator.
Um ein freigegebenes oder ein Standardprofil zu ändern, muss mittels "Duplizieren" eine eigene Kopie davon erstellt werden.
Jedes Profil kann als Datei im XML-Format heruntergeladen werden mittels der Aktion "Export". Diese Dateien können mit jeder Variante von i-net PDFC verwendet werden - also z.B. mit der Desktopanwendung, dem Kommandzeilen-Tool oder den verschiedenen APIs.
Um eine Profil im XML-Form zu importieren muss zuerst eine schreibbares Profil mit der Aktion "Duplizieren" erzeugt werden. Anschließend kann die Aktion "Importieren" verwendet werden. Alternativ kann die XML-Datei auch mittels Drag & Drop importiert werden.
Der Import ersetzt alle Einstellungen des aktuellen Profils durch die Einstellungen der XML-Datei.
Ein Profil beinhaltet Einstellungen für den Vergleichsmodus, die zu vergleichenden Elementtypen sowie zu verwendende Filter. Jeder Filter ober Typ kann noch eigene Optionen zum Fein-Tuning zur Verfügung stellen.
Standard | Stenger Modus |
---|---|
Erkennt gleiche Elemente, auch wenn Einfügungen oder Entfernungen den Umbruch des Inhalts verändern. | Die Inhalte beider Dokumente müssen sich auf der jeweils gleichen Seite and ähnlicher Position befinden, um als gleich erkannt zu werden. Ergibt sich eine Verschiebung durch z.B. einen neuen Paragraphen, wird aller nachfolgender Inhalt als Unterschied markiert. |
Das Augenmerk liegt hier auf dem fortlaufenden Text- und Inhaltsfluss. Das Layout wird als automatisch generiert und fließen angenommen. | Legt den Schwerpunkt auf die Ähnlichkeit des Gesamtbildes und ist daher auch zwingend seitenbezogen |
Diese Filter können die Erkennung von Unterschieden verbessern oder ungewollte Falsch-Erkennung vermindern.
Große Textersetzungen können dazu führen, dass häufig vorkommende Wörter als gleich markiert werden, obwohl der Kontext unterschiedlich ist. Um diese Falsch-Negativen zu reduzieren, kann die Option "Große Textunterschiede zusammenfassen" verwendet werden.
Der Textvergleich vergleicht alle Textelemente wie Wörter, Zahlen, Satzzeichen und Listenelemente. Diese Elemente werden anhand der Regeln der aktuellen Systemsprache ermittelt. Verglichen werden damit immer ganze Elemente, nicht einzelne Zeichen. Das ist notwendig, da eine minimale Änderung an einem Textelement ein simpler Schreibfehler sein kann, aber auch den Sinn des Textes radikal ändern kann. i-net PDFC nimmt daher keine Gewichtung vor und markiert immer das ganze Wort.
i-net PDFC vergleicht Text immer in der natürlichen Leserichtung. Damit können Abweichungen von den Vorgaben des Dokuments entstehen. Diese Abweichungen sind jedoch beabsichtigt, da einige Generatoren - besonders bei PDF-Dokumenten - eine falsche oder zufällige Reihenfolge vorgeben.
Die Abweichungstoleranz für Text legt den maximal zulässigen Y-Jitter für die Textzeilenidentifikation fest. Sie ist relativ zur Texthöhe der jeweiligen Zeile. Dieser Wert kann verwendet werden, um Rundungsfehler verschiedener PDF-Generatoren zu kompensieren.
Der Wert wird nur im strikten Vergleichsmodus angewandt.
Ein Setzen dieser Eigenschaft auf false
bewirkt, dass der Vergleich ohne Berücksichtigung der Groß- Kleinschreibung erfolgt. Dies führt zu einem langsameren Vergleich sowie höherem Speicherverbrauch, da jeglicher Text zunächst umgewandelt wird.
Der Standardwert ist true
.
Stellt sicher, dass die Schriftgröße in beiden Dokumenten identisch ist.
Stellt sicher, dass die Textfarbe in beiden Dokumenten identisch ist.
Stellt sicher, dass die Schriftart in beiden Dokumenten identisch ist.
Stellt sicher, dass der Schriftstil in beiden Dokumenten identisch ist.
Vergleicht Leerzeichen und Umbrüche, die keine semantische Relevanz haben. Einfache Beispiele sind ein gelöschtes Leerzeichen zwischen einem Wort und dem folgenden Komma. Damit wird der Inhalt stilistische geändert, an der Aussage des Wortes ändert sich jedoch nichts. Der Angezeigte Unterschied wird daher auch der Kategorie " Formatierung geändert" zugeordnet.
Wenn Sie einen optischen Zeichenerkennungsfilter wie "Text extrahieren" verwenden möchten, muss i-net PDFC die Sprache des Dokuments kennen. Wenn das Plugin "Sprachanalyse" verfügbar ist, können Sie "Automatisch erkennen" wählen, damit der Analyzer die Sprache automatisch erkennt. Gibt es jedoch kein solches Plugin oder sind keine muttersprachlichen Textelemente im Dokument vorhanden, müssen Sie die Sprache explizit festlegen. Wenn die ausgewählte oder erkannte Sprache nicht mit der Sprache des Dokuments übereinstimmt, ist die Texterkennungsrate sehr schlecht.
Wenn die Sprache des Dokuments in der Auswahl fehlt, installieren Sie diese Sprache bitte manuell. Weitere Details finden Sie auf der OCR Hilfeseite.
Der Linienvergleich enthält alle grafischen Elemente in einem Dokument außer Bildern. i-net PDFC zerlegt für den Vergleich als Normalisierung intern zuerst alle Zeichnungen in einzelne Linien und Kurven. Die Toleranzwerte gelten damit für jede einzelne dieser Linien und Kurven.
Die Abweichungstoleranz kann mittels Slider zwischen Wenig und Viel eingestellt werden. Beeinflusst werden die Toleranzen für Farbe, Größe und Position (nur strenger Modus).
Der Bildvergleich vergleicht alle Bilder innerhalb des Dokuments entsprechend ihrer visuellen Erscheinung. Der Vergleich kann konfiguriert werden, um Farb- und Größenunterschiede zu tolerieren. Überlappende oder verbundene Bilder werden beim Vergleich jeweils als ein Bild betrachtet.
Die Abweichungstoleranz kann mittels Slider zwischen Wenig und Viel eingestellt werden. Beeinflusst werden die Toleranzen für Farbe, Größe und Position (nur strenger Modus).
Eigenschaft | Beschreibung |
---|---|
Bildmetadaten vergleichen | Diese Eigenschaft vergleicht die Metadaten eines Bildes, sofern sie gelesen werden können. Zu den Bild-Metadaten gehören die DPI, das Bildformat (JPG, PNG usw.), das Farbmodell (RGB, Schwarz/Weiß, CMYK) und ob eine Alphamaske vorhanden ist. |
Detailvergleich | Diese Einstellung vergleich die Bilder Blockweise und wenn der Unterschied der Bilder unter 50% liegt, werden die Unterschiedliche Bereich markiert. Diese Option benötigt einen erhöhten Speicherverbrauch. Standardmäßig ist diese Option deaktiviert. |
Kommentierungen - vor allem in PDF Dokumenten - sind ein optionaler Inhalt, der meist nicht zum eigentlichen Inhalt gehören. Sie werden daher standardmäßig nicht verglichen. Mit dieser Option können Sie Kommentierungen jedoch ebenfalls vergleichen lassen.
Eigenschaft | Beschreibung |
---|---|
Detailvergleich | Unterschiede werden pro Kommentierung in eine einzige Markierung zusammengefasst. Mit dem Aktivieren dieser Option wird jeder einzelne Unterschied im Kommentierungen separat markiert und gezählt. |