Beschreibung

Mit einer Analyseregel wird definiert, wie eingehende Dokumente verarbeitet und ggf. auch abgelegt werden sollen. Eingescannte Dokumente können in textlesbare PDF-Dokumente gewandelt oder ein Dokumentstapel anhand von bestimmten Merkmalen getrennt werden.

Inhalt

Feld / Schaltfläche

Beschreibung

Wiederherstellen

Die Schaltfläche steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde.

Speichern

Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt

Eigenschaften

Allgemein

Feld / Schaltfläche	Beschreibung
Name	Name der Analyseregel
ID	Interne ID der Analyseregel

Tab Eigenschaften

Hier werden allgemeine Einstellungen der Analyseregel konfiguriert.

Feld / Schaltfläche	Beschreibung
Beschreibung	Detaillierte Beschreibung der Analyseregel
FilePicker-Verzeichnis	Sobald ein FilePicker-Verzeichnis angegeben wurde, wird im Scan-Verzeichnis ein Unterordner mit dem hier angegebenen Namen erstellt.
Posteingangsordner	Angabe eines Posteingangsordner, in dem die Dokumente nach der Analyse abgelegt werden. Es kann entweder ein bestehender Posteingang ausgewählt bzw. ein neuer erstellt werden. Bei der Anwendung einer Ablagevorlage können die Dokumente dann an einen anderen Ablageort verschoben werden.
Benachrichtigung	Benachrichtigung von externen bzw. internen Modulen (z.B. Capture), um das Dokument nach der Analyse automatisch weiterverarbeiten zu lassen.
Ablagevorlage	Auswahl einer Ablagevorlage, um das Dokument direkt nach der Analyse nach bestimmten Kriterien abzulegen.
Passwort	Sollten Passwort-geschützte PDF-Dokumente analysiert werden müssen, dann kann hier das Passwort hinterlegt werden. Pro Analyseregel kann nur ein Passwort angegeben werden.

Tab OCR

Hier wird festgelegt, ob eine OCR-Erkennung durchgeführt werden soll und mit welchen Optionen.

Feld / Schaltfläche	Beschreibung
OCR-Erkennung durchführen	Kennzeichen, ob eine OCR-Erkennung durchgeführt werden soll. Für eingescannte Dokumente (z.B. TIFF, PDF) sollte immer eine OCR durchgeführt werden, da sonst keine automatische Erkennung möglich ist. Ausnahme sind Scanner, welche bereits intern eine OCR durchführen und ein textlesbares PDF übergeben. Hier sollte aber die Erkennungsqualität geprüft werden. Dokumente, für welche keine OCR durchgeführt werden kann (z.B. E-Mail, Office-Dokumente) werden ohne OCR analysiert. Wenn keine OCR-Erkennung durchgeführt werden soll, dann stehen die Tabs Barcode, Umwandlung und Aufteilung nicht zur Verfügung.
PDF-Verarbeitung ohne OCR bevorzugen	Mit diesem Kennzeichen kann speziell für die Analyse von PDF-Dokumenten (Dateiendung *.pdf) eine zweistufige Analyse aktiviert werden. Im ersten Schritt wird geprüft, ob ein Text in dem PDF enthalten ist. Wenn ja, dann wird das PDF analysiert, ohne OCR-Lizenzen zu verbrauchen. Wenn kein Text enthalten ist (z.B. bei eingescannten Belegen), dann wird das PDF-Dokument mit der OCR analysiert und ggf. in ein textlesbares Umgewandelt. Wird die 2-stufige PDF-Analyse gewählt, dann ist weder eine Barcode-Erkennung noch ein Aufteilen von Dokumenten möglich.
Dokument erst nach der OCR-Analyse zur Verfügung stellen	Dieses Kennzeichen sollte immer gesetzt werden, da es sonst vorkommen kann, dass das Dokument bereits für den Benutzer sichtbar ist, bevor dieses mit OCR-Infos angereichert wurde. Wenn das Dokument durch den Benutzer geöffnet und dadurch gesperrt wird, kann es vorkommen, dass die OCR-Ergebnisse nicht zum Dokument gespeichert werden können.
OCR-Vorlage	Bei der OCR-Analyse mit ABBYY können unterschiedliche Einstellungen der Parameter zu besseren bzw. auch schlechteren Ergebnissen führen. Deshalb sollten bei Problemen mit der Erkennung die unterschiedlichen Vorlagen ausprobiert werden, welche die besten Ergebnisse liefern. Bei allen ABBYY OCR-Vorlagen ist auch die Standard-Konfiguration für die Tesseract-OCR hinterlegt, so dass es bei der Verwendung der Tesseract-OCR die Auswahl der OCR-Vorlage keine Auswirkung hat.
Analysieren	Sollte bei mehrseitigen Dokumenten nur die ersten x Seiten für die Dokumenterkennung relevant sein, kann die OCR-Analyse auf eine bestimmte Anzahl Seiten begrenzt werden. Neben der Einsparung von OCR-Lizenzen kann dies auch die Performance bei der Dokumenterkennung steigern.
OCR Info für Original ignorieren	Wenn diese Option aktiviert wird, werden die Daten der Texterkennung nicht zum Dokument gespeichert. Dies bedeutet allerdings, dass die Dokumente, welche mit dieser Analyseregel analysiert werden, bei einer Volltextsuche nicht mehr gefunden werden. Diese Option ist nur dann sinnvoll, wenn das Dokument in ein textlesbares PDF bzw. PDF/A umgewandelt bzw. ein Stapel getrennt wird und die OCR-Info bei den dabei erzeugten neuen Dokumenten gespeichert wird (eine Verknüpfung zum Original wird hergestellt).

Die OCR Info beinhaltet folgende Informationen:

OCR-Text
Barcodes
Thumbnails (für jede Seite)
Preview (eines für das ganze Dokument)
Zum Dokument werden Seiten-Contents hinzugefügt (wenn „OCR-Info ignorieren“ = Aktiv, dann hat das Original-Dokument immer „Anzahl Seiten = 1“, auch wenn das Dokument aus 100 Seiten bestehen würde).

Es können folgende Dateitypen per OCR verarbeitet werden (Auszug): bmp, gif, jpg, jpeg, pdf, png, tif, tiff

Welche Dateitypen für die OCR berücksichtigt werden sollen, kann in den Parametern im Bereich OCR bestimmt werden.

Tab Barcode

Im Tab Barcode kann konfiguriert werden, ob Barcodes generell erkannt und der Barcodeinhalt in einem dafür vorgesehenen Dokumentattribut gespeichert werden soll.

Die Barcode-Erkennung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche	Beschreibung
Barcode erkennen	Kennzeichen, ob Barcodes auf dem Dokument erkannt werden sollen. Wenn nein, dann stehen alle nachfolgenden Felder nicht zur Verfügung.
Codierung des Barcodes	Codierung des Barcodes, welcher erkannt werden soll. Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
	Hinzufügen einer Barcode-Zuordnung
	Entfernen einer Barcode-Zuordnung

Wird eine neue Barcode-Zuordnung hinzugefügt bzw. eine bestehende geändert, öffnet sich folgender Dialog:

Feld / Schaltfläche	Beschreibung
Typ	Typ des Barcodes, welcher erkannt werden soll. Befinden sich auf einem Dokument mehrere Barcodes, kann hier der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code). Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Orientierung	Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden. Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Position	Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Größe	Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Textübereinstimmung	Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss. Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.
Einem Attribut zuweisen	Hier kann ein Dokumentattribut vom Typ String ausgewählt werden, dem der ausgelesene Wert des Barcodes übertragen wird. Sind mehrere gleichartige Barcodes vorhanden, kann über zwei Optionen bestimmt werden, ob nur der erste Barcode-Wert übernommen werden soll, oder alle Werte. Nur ersten erkannten Barcode übernehmen (bei Stapeltrennung wird der erste Barcode pro getrenntem Dokument übernommen) Alle, getrennt durch Zeichen “;“

Tab Umwandlung

Im Tab Umwandlung kann konfiguriert werden, ob das eingehende Dokument in ein textlesbares PDF konvertiert und wie es im Archiv gespeichert werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Dokument in anderes Format konvertieren

Kennzeichen, ob das Original-Dokument in ein textlesbares PDF umgewandelt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Es können Bild- (z.B. TIFF) und PDF-Dokumente umgewandelt werden.

Eine Umwandlung wird dann empfohlen, wenn es sich um nicht textlesbare PDF-Dokumente handelt (z.B. eingescannte Dokumente) oder die Qualität des Textes sehr schlecht ist (z.B. wenn im Scanner nur eine einfache OCR integriert ist)

Zielformat

Textlesbares PDF bzw. PDF/A (PDF-A ist ein Langzeit-Dokumentenformat)

Speichern unter

Hier muss ausgewählt werden, wie das umgewandelte Dokument gespeichert werden soll. Es stehen folgende Optionen zur Verfügung:

Konvertierter Inhalt
Das umgewandelte Dokument wird zum Original gespeichert als “konvertierter Inhalt”.
Neues Dokument
Das umgewandelte Dokument wird als neues und eigenständiges Dokument archiviert, zum Original wird eine Verknüpfung hinzugefügt.
Wenn das Dokument als neues Dokument gespeichert werden soll, ist es möglich, eine Ablagevorlage (zur Definition des Zielordners des neuen Dokuments) anzugeben und weitere Module (für Folgeaktionen mit dem neuen Dokument) zu benachrichtigen.

Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group), die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden.
Neue Dokumentversion
Das umgewandelte Dokument wird als neue Version zum Original gespeichert.

Tab Aufteilung

Im Tab Aufteilung kann konfiguriert werden, wie ein Dokumentstapel in einzelne Dokumente aufgeteilt werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Dokument aufteilen

Kennzeichen, ob das Original-Dokument in mehrere Einzeldokumente aufgeteilt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Analyseregeln

Beschreibung

Toolbar

Eigenschaften

Allgemein

Tab Eigenschaften

Tab OCR

Tab Barcode

Tab Umwandlung

Tab Aufteilung

Verwandte Themen