Beschreibung

Mit einer Analyseregel wird definiert, wie eingehende Dokumente verarbeitet und ggf. auch abgelegt werden sollen. Eingescannte Dokumente können in textlesbare PDF-Dokumente gewandelt oder ein Dokumentstapel anhand von bestimmten Merkmalen getrennt werden.

Inhalt

Feld / Schaltfläche

Beschreibung

Wiederherstellen

Die Schaltfläche steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde.

Speichern

Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt

Eigenschaften

Allgemein

Feld / Schaltfläche	Beschreibung
Name	Name der Analyseregel
ID	Interne ID der Analyseregel

Tab Eigenschaften

Hier werden allgemeine Einstellungen der Analyseregel konfiguriert.

Feld / Schaltfläche	Beschreibung
Beschreibung	Detaillierte Beschreibung der Analyseregel
FilePicker-Verzeichnis	Sobald ein FilePicker-Verzeichnis angegeben wurde, wird im Scan-Verzeichnis ein Unterordner mit dem hier angegebenen Namen erstellt.
Posteingangsordner	Angabe eines Posteingangsordner, in dem die Dokumente nach der Analyse abgelegt werden. Es kann entweder ein bestehender Posteingang ausgewählt bzw. ein neuer erstellt werden. Bei der Anwendung einer Ablagevorlage können die Dokumente dann an einen anderen Ablageort verschoben werden.
Benachrichtigung	Benachrichtigung von externen bzw. internen Modulen (z.B. Capture), um das Dokument nach der Analyse automatisch weiterverarbeiten zu lassen.
Ablagevorlage	Auswahl einer Ablagevorlage, um das Dokument direkt nach der Analyse nach bestimmten Kriterien abzulegen.
Passwort	Sollten Passwort-geschützte PDF-Dokumente analysiert werden müssen, dann kann hier das Passwort hinterlegt werden. Pro Analyseregel kann nur ein Passwort angegeben werden.

Tab OCR

Hier wird festgelegt, ob eine OCR-Erkennung durchgeführt werden soll und mit welchen Optionen.

Feld / Schaltfläche	Beschreibung
OCR-Erkennung durchführen	Kennzeichen, ob eine OCR-Erkennung durchgeführt werden soll. Für eingescannte Dokumente (z.B. TIFF, PDF) sollte immer eine OCR durchgeführt werden, da sonst keine automatische Erkennung möglich ist. Ausnahme sind Scanner, welche bereits intern eine OCR durchführen und ein textlesbares PDF übergeben. Hier sollte aber die Erkennungsqualität geprüft werden. Dokumente, für welche keine OCR durchgeführt werden kann (z.B. E-Mail, Office-Dokumente) werden ohne OCR analysiert. Wenn keine OCR-Erkennung durchgeführt werden soll, dann stehen die Tabs Barcode, Umwandlung und Aufteilung nicht zur Verfügung.
PDF-Verarbeitung ohne OCR bevorzugen	Mit diesem Kennzeichen kann speziell für die Analyse von PDF-Dokumenten (Dateiendung .pdf) eine zweistufige Analyse aktiviert werden. Im ersten Schritt wird geprüft, ob ein Text in dem PDF enthalten ist. Wenn ja, dann wird das PDF analysiert, ohne OCR-Lizenzen zu verbrauchen. Wenn kein Text enthalten ist (z.B. bei eingescannten Belegen), dann wird das PDF-Dokument mit der OCR analysiert und ggf. in ein textlesbares Umgewandelt. Wird die 2-stufige PDF-Analyse gewählt, dann ist weder eine Barcode-Erkennung noch ein Aufteilen von Dokumenten möglich. Werte, welche unter den Tabs Barcode* und Aufteilung eingetragen sind, werden gelöscht und sind nach dem Speichern nicht mehr wieder herstellbar.
Dokument erst nach der OCR-Analyse zur Verfügung stellen	Dieses Kennzeichen sollte immer gesetzt werden, da es sonst vorkommen kann, dass das Dokument bereits für den Benutzer sichtbar ist, bevor dieses mit OCR-Infos angereichert wurde. Wenn das Dokument durch den Benutzer geöffnet und dadurch gesperrt wird, kann es vorkommen, dass die OCR-Ergebnisse nicht zum Dokument gespeichert werden können.
OCR-Vorlage	Bei der OCR-Analyse mit ABBYY können unterschiedliche Einstellungen der Parameter zu besseren bzw. auch schlechteren Ergebnissen führen. Deshalb sollten bei Problemen mit der Erkennung die unterschiedlichen Vorlagen ausprobiert werden, welche die besten Ergebnisse liefern. Bei allen ABBYY OCR-Vorlagen ist auch die Standard-Konfiguration für die Tesseract-OCR hinterlegt, so dass es bei der Verwendung der Tesseract-OCR die Auswahl der OCR-Vorlage keine Auswirkung hat.
Analysieren	Sollte bei mehrseitigen Dokumenten nur die ersten x Seiten für die Dokumenterkennung relevant sein, kann die OCR-Analyse auf eine bestimmte Anzahl Seiten begrenzt werden. Neben der Einsparung von OCR-Lizenzen kann dies auch die Performance bei der Dokumenterkennung steigern.
OCR Info für Original ignorieren	Wenn diese Option aktiviert wird, werden die Daten der Texterkennung nicht zum Dokument gespeichert. Dies bedeutet allerdings, dass die Dokumente, welche mit dieser Analyseregel analysiert werden, bei einer Volltextsuche nicht mehr gefunden werden. Diese Option ist nur dann sinnvoll, wenn das Dokument in ein textlesbares PDF bzw. PDF/A umgewandelt bzw. ein Stapel getrennt wird und die OCR-Info bei den dabei erzeugten neuen Dokumenten gespeichert wird (eine Verknüpfung zum Original wird hergestellt).

Die OCR Info beinhaltet folgende Informationen:

OCR-Text
Barcodes
Thumbnails (für jede Seite)
Preview (eines für das ganze Dokument)
Zum Dokument werden Seiten-Contents hinzugefügt (wenn „OCR-Info ignorieren“ = Aktiv, dann hat das Original-Dokument immer „Anzahl Seiten = 1“, auch wenn das Dokument aus 100 Seiten bestehen würde).

Es können folgende Dateitypen per OCR verarbeitet werden (Auszug): bmp, gif, jpg, jpeg, pdf, png, tif, tiff

Welche Dateitypen für die OCR berücksichtigt werden sollen, kann in den Parametern im Bereich OCR bestimmt werden.

Tab Barcode

Im Tab Barcode kann konfiguriert werden, ob Barcodes generell erkannt und der Barcodeinhalt in einem dafür vorgesehenen Dokumentattribut gespeichert werden soll.

Die Barcode-Erkennung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche	Beschreibung
Barcode erkennen	Kennzeichen, ob Barcodes auf dem Dokument erkannt werden sollen. Wenn nein, dann stehen alle nachfolgenden Felder nicht zur Verfügung.
Codierung des Barcodes	Codierung des Barcodes, welcher erkannt werden soll. Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
	Hinzufügen einer Barcode-Zuordnung
	Entfernen einer Barcode-Zuordnung

Wird eine neue Barcode-Zuordnung hinzugefügt bzw. eine bestehende geändert, öffnet sich folgender Dialog:

Feld / Schaltfläche	Beschreibung
Typ	Typ des Barcodes, welcher erkannt werden soll. Befinden sich auf einem Dokument mehrere Barcodes, kann hier durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code). Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Orientierung	Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden. Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Position	Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Größe	Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Textübereinstimmung	Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss. Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.
Einem Attribut zuweisen	Hier kann ein Dokumentattribut vom Typ String ausgewählt werden, dem der ausgelesene Wert des Barcodes übertragen wird. Sind mehrere gleichartige Barcodes vorhanden, kann über zwei Optionen bestimmt werden, ob nur der erste Barcode-Wert übernommen werden soll, oder alle Werte. Nur ersten erkannten Barcode übernehmen (bei Stapeltrennung wird der erste Barcode pro getrenntem Dokument übernommen) Alle, getrennt durch Zeichen “;“

Tab Umwandlung

Im Tab Umwandlung kann konfiguriert werden, ob das eingehende Dokument in ein textlesbares PDF konvertiert und wie es im Archiv gespeichert werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Dokument in anderes Format konvertieren

Kennzeichen, ob das Original-Dokument in ein textlesbares PDF umgewandelt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Es können Bild- (z.B. TIFF) und PDF-Dokumente umgewandelt werden.

Eine Umwandlung wird dann empfohlen, wenn es sich um nicht textlesbare PDF-Dokumente handelt (z.B. eingescannte Dokumente) oder die Qualität des Textes sehr schlecht ist (z.B. wenn im Scanner nur eine einfache OCR integriert ist)

Zielformat

Textlesbares PDF bzw. PDF/A (PDF-A ist ein Langzeit-Dokumentenformat)

Speichern unter

Hier muss ausgewählt werden, wie das umgewandelte Dokument gespeichert werden soll. Es stehen folgende Optionen zur Verfügung:

Konvertierter Inhalt
Das umgewandelte Dokument wird zum Original gespeichert als “konvertierter Inhalt”.
Neues Dokument
Das umgewandelte Dokument wird als neues und eigenständiges Dokument archiviert, zum Original wird eine Verknüpfung hinzugefügt.
Wenn das Dokument als neues Dokument gespeichert werden soll, ist es möglich, eine Ablagevorlage (zur Definition des Zielordners des neuen Dokuments) anzugeben und weitere Module (für Folgeaktionen mit dem neuen Dokument) zu benachrichtigen.

Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group), die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden.
Neue Dokumentversion
Das umgewandelte Dokument wird als neue Version zum Original gespeichert.

Tab Aufteilung

Im Tab Aufteilung kann konfiguriert werden, wie ein Dokumentstapel in einzelne Dokumente aufgeteilt werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche	Beschreibung
Dokument aufteilen	Kennzeichen, ob das Original-Dokument in mehrere Einzeldokumente aufgeteilt werden soll. Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.
Zielformat der aufgeteilten Dokumente	Hier kann gewählt werden, ob die aufgeteilten Dokumente in das Format PDF bzw. PDF-A (PDF-A ist ein Langzeit-Dokumentenformat) konvertiert werden sollen.
Ablagevorlage für aufgeteilte Dokumente	Hier kann gewählt werden, ob eine Ablagevorlage (zur Definition des Zielordners der neuen Dokumente) verwendet werden soll.
Benachrichtigung	Hier kann gewählt werden, ob weitere Module (für Folgeaktionen mit den neuen Dokumenten) benachrichtigt werden sollen. Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group) die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden. Der genannte Einstellungsdialog steht nur bei der Benachrichtigung an den ACC Capture-Process zur Verfügung.
Erfassung auf COG beschränken	Mit der Aufteilungsart wird bestimmt, nach welchen Kriterien der Dokumentstapel aufgeteilt werden soll. Es stehen folgende Aufteilungsarten zur Verfügung: Seitenanzahl Leerseite Inhalt Barcode Je nach Aufteilungsart können weitere Einstellungen vorgenommen werden. Diese werden nachfolgend näher beschrieben.

Aufteilung nach Seitenanzahl

Bei der Aufteilung nach Seitenanzahl wird das Dokument immer nach einer bestimmten Anzahl von Seiten getrennt. Alle Dokumente haben immer dieselbe Anzahl von Seiten, lediglich das letzte Dokument kann weniger Seiten beinhalten.

Feld / Schaltfläche	Beschreibung
Trennseite	Bei der Aufteilung nach Seitenanzahl kann die Trennseite nicht ausgewählt werden. Dies ist immer die erste Seite.
Seitenanzahl	Angabe, nach wie viele Seiten zu einem Dokument gehören.

Aufteilung nach Leerseite

Bei der Aufteilung nach Leerseite wird das Dokument immer beim Vorkommen einer Leerseite getrennt.

Leerseitenerkennung von manchen Scangeräten berücksichtigen!

Feld / Schaltfläche

Beschreibung

Trennseite

Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden:

Erste Seite
Hier wird der Dokumentstapel vor der Leerseite getrennt und die Leerseite als erste Seite des nächsten Dokuments hinzugefügt
Letzte Seite
Hier wird der Dokumentstapel nach der Leerseite getrennt und die Leerseite als letzte Seite des Dokuments hinzugefügt
Entfernen
Hier wird der Dokumentstapel vor der Leerseite getrennt, die Leerseite verworfen und das nächste Dokument ohne Leerseite erzeugt

Aufteilung nach Inhalt

Bei der Aufteilung nach Inhalt wird eine Trennseite nach deren Inhalt erkannt.

Feld / Schaltfläche	Beschreibung
Trennseite	Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden: Erste Seite Hier wird der Dokumentstapel vor der Seite mit dem gefundenen Text (=Trennseite) getrennt und die Trennseite als erste Seite des nächsten Dokuments hinzugefügt Letzte Seite Hier wird der Dokumentstapel nach der Trennseite getrennt und die Trennseite als letzte Seite des Dokuments hinzugefügt Entfernen Hier wird der Dokumentstapel vor der Trennseite getrennt, die Trennseite verworfen und das nächste Dokument ohne Leerseite erzeugt
Textübereinstimmung	Text, welcher auf der Trennseite enthalten sein muss. Wenn die Option Reg. Ausdruck gesetzt wird, kann ein regulärer Ausdruck zur genauen Bestimmung des Begriffes verwendet werden.
Groß-/Kleinschreibung beachten	Diese Option bewirkt, dass beim Vergleich der Textübereinstimmung die Groß- und Kleinschreibung berücksichtigt wird.
Text kann eine Teilzeichenfolge sein	Mit dieser Option wird festgelegt, ob der angegebene Wert nur ein Teil des Begriffes ist.
Leerzeichen ignorieren	Wird diese Option aktiviert, werden alle Leerzeichen, die erkannt wurden automatisch entfernt und nicht berücksichtigt. Dies kann z.B. notwendig sein, wenn bei größeren Schriftarten die Zeichenabstände sehr groß werden und die OCR-Erkennung fälschlicher Weise Leerzeichen einfügt.

Aufteilung nach Barcode

Bei der Aufteilung nach Barcode wird eine Trennseite anhand eines darauf erkannten Barcodes gesucht.

Feld / Schaltfläche	Beschreibung
Typ	Typ des Barcodes, welcher erkannt werden soll. Befinden sich auf einem Dokument mehrere Barcodes, kann durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code). Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Orientierung	Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden. Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Codierung des Barcodes	Codierung des Barcodes, welcher erkannt werden soll. Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.
Position	Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Größe	Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.
Textübereinstimmung	Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss. Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.

Informationen zu regulären Ausdrücken finden Sie hier.

Analyseregeln

Beschreibung

Toolbar

Eigenschaften

Allgemein

Tab Eigenschaften

Tab OCR

Tab Barcode

Tab Umwandlung

Tab Aufteilung

Aufteilung nach Seitenanzahl

Aufteilung nach Leerseite

Aufteilung nach Inhalt

Aufteilung nach Barcode

Verwandte Themen