Analyseregeln

Beschreibung

Mit einer Analyseregel wird definiert, wie eingehende Dokumente verarbeitet und ggf. auch abgelegt werden sollen. Eingescannte Dokumente können in textlesbare PDF-Dokumente gewandelt oder ein Dokumentstapel anhand von bestimmten Merkmalen getrennt werden.

Toolbar

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Wiederherstellen

Die Schaltfläche  steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde.

Speichern

Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt

Eigenschaften

Allgemein

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Name

Name der Analyseregel

ID

Interne ID der Analyseregel

Tab Eigenschaften

 

Hier werden allgemeine Einstellungen der Analyseregel konfiguriert.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Beschreibung

Detaillierte Beschreibung der Analyseregel

FilePicker-Verzeichnis

Sobald ein FilePicker-Verzeichnis angegeben wurde, wird im Scan-Verzeichnis ein Unterordner mit dem hier angegebenen Namen erstellt.

Posteingangsordner

Angabe eines Posteingangsordner, in dem die Dokumente nach der Analyse abgelegt werden.

Es kann entweder ein bestehender Posteingang ausgewählt bzw. ein neuer erstellt werden.

Bei der Anwendung einer Ablagevorlage können die Dokumente dann an einen anderen Ablageort verschoben werden.

Benachrichtigung

Benachrichtigung von externen bzw. internen Modulen (z.B. Capture), um das Dokument nach der Analyse automatisch weiterverarbeiten zu lassen.

Ablagevorlage

Auswahl einer Ablagevorlage, um das Dokument direkt nach der Analyse nach bestimmten Kriterien abzulegen.

Passwort

Sollten Passwort-geschützte PDF-Dokumente analysiert werden müssen, dann kann hier das Passwort hinterlegt werden. Pro Analyseregel kann nur ein Passwort angegeben werden.

Alternative Analyseregel für neue Version

Diese Analyseregel wird verwendet, wenn zu einem Dokument eine neu Version hinzugefügt wird. Die neue Version wird dann über diese Regele analysiert.

Dringlichkeit der Dokumente

Die Eingangsverarbeitung (Analyse / OCR / Capture) wird nach Priorität durchgeführt. Dokumente mit höherer Priorität werden bevorzugt verarbeitet. Dokumente mit niedriger Priorität erst dann, wenn keine höher priorisierten Dokumente mehr vorhanden sind.

Tab OCR

Hier wird festgelegt, ob eine OCR-Erkennung durchgeführt werden soll und mit welchen Optionen.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

OCR-Erkennung durchführen

Kennzeichen, ob eine OCR-Erkennung durchgeführt werden soll.

Für eingescannte Dokumente (z.B. TIFF, PDF) sollte immer eine OCR durchgeführt werden, da sonst keine automatische Erkennung möglich ist. Ausnahme sind Scanner, welche bereits intern eine OCR durchführen und ein textlesbares PDF übergeben. Hier sollte aber die Erkennungsqualität geprüft werden.

Dokumente, für welche keine OCR durchgeführt werden kann (z.B. E-Mail, Office-Dokumente) werden ohne OCR analysiert.

Wenn keine OCR-Erkennung durchgeführt werden soll, dann stehen die Tabs Barcode, Umwandlung und Aufteilung nicht zur Verfügung.

PDF-Verarbeitung ohne OCR bevorzugen

Mit diesem Kennzeichen kann speziell für die Analyse von PDF-Dokumenten (Dateiendung *.pdf) eine zweistufige Analyse aktiviert werden. Im ersten Schritt wird geprüft, ob ein Text in dem PDF enthalten ist. Wenn ja, dann wird das PDF analysiert, ohne OCR-Lizenzen zu verbrauchen. Wenn kein Text enthalten ist (z.B. bei eingescannten Belegen), dann wird das PDF-Dokument mit der OCR analysiert und ggf. in ein textlesbares Umgewandelt.

Wird die 2-stufige PDF-Analyse gewählt, dann ist weder eine Barcode-Erkennung noch ein Aufteilen von Dokumenten möglich. Werte, welche unter den Tabs Barcode und Aufteilung eingetragen sind, werden gelöscht und sind nach dem Speichern nicht mehr wieder herstellbar.

Dokument erst nach der OCR-Analyse zur Verfügung stellen

Dieses Kennzeichen sollte immer gesetzt werden, da es sonst vorkommen kann, dass das Dokument bereits für den Benutzer sichtbar ist, bevor dieses mit OCR-Infos angereichert wurde. Wenn das Dokument durch den Benutzer geöffnet und dadurch gesperrt wird, kann es vorkommen, dass die OCR-Ergebnisse nicht zum Dokument gespeichert werden können.

OCR-Vorlage

Bei der OCR-Analyse mit ABBYY können unterschiedliche Einstellungen der Parameter zu besseren bzw. auch schlechteren Ergebnissen führen. Deshalb sollten bei Problemen mit der Erkennung die unterschiedlichen Vorlagen ausprobiert werden, welche die besten Ergebnisse liefern. Bei allen ABBYY OCR-Vorlagen ist auch die Standard-Konfiguration für die Tesseract-OCR hinterlegt, so dass es bei der Verwendung der Tesseract-OCR die Auswahl der OCR-Vorlage keine Auswirkung hat.

Analysieren

Sollte bei mehrseitigen Dokumenten nur die ersten x Seiten für die Dokumenterkennung relevant sein, kann die OCR-Analyse auf eine bestimmte Anzahl Seiten begrenzt werden. Neben der Einsparung von OCR-Lizenzen kann dies auch die Performance bei der Dokumenterkennung steigern.

OCR Info für Original ignorieren

Wenn diese Option aktiviert wird, werden die Daten der Texterkennung nicht zum Dokument gespeichert. Dies bedeutet allerdings, dass die Dokumente, welche mit dieser Analyseregel analysiert werden, bei einer Volltextsuche nicht mehr gefunden werden. Diese Option ist nur dann sinnvoll, wenn das Dokument in ein textlesbares PDF bzw. PDF/A umgewandelt bzw. ein Stapel getrennt wird und die OCR-Info bei den dabei erzeugten neuen Dokumenten gespeichert wird (eine Verknüpfung zum Original wird hergestellt).

Die OCR Info beinhaltet folgende Informationen:

  • OCR-Text

  • Barcodes

  • Thumbnails (für jede Seite)

  • Preview (eines für das ganze Dokument)

  • Zum Dokument werden Seiten-Contents hinzugefügt (wenn „OCR-Info ignorieren“ = Aktiv, dann hat das Original-Dokument immer „Anzahl Seiten = 1“, auch wenn das Dokument aus 100 Seiten bestehen würde).

 

Es können folgende Dateitypen per OCR verarbeitet werden (Auszug): bmp, gif, jpg, jpeg, pdf, png, tif, tiff

Welche Dateitypen für die OCR berücksichtigt werden sollen, kann in den Parametern im Bereich OCR bestimmt werden.

Tab Barcode

Im Tab Barcode kann konfiguriert werden, ob Barcodes generell erkannt und der Barcodeinhalt in einem dafür vorgesehenen Dokumentattribut gespeichert werden soll.

Die Barcode-Erkennung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Barcode erkennen

Kennzeichen, ob Barcodes auf dem Dokument erkannt werden sollen.

Wenn nein, dann stehen alle nachfolgenden Felder nicht zur Verfügung.

Codierung des Barcodes

Codierung des Barcodes, welcher erkannt werden soll.

Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Hinzufügen einer Barcode-Zuordnung

Entfernen einer Barcode-Zuordnung

 

Wird eine neue Barcode-Zuordnung hinzugefügt bzw. eine bestehende geändert, öffnet sich folgender Dialog:

 

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Typ

Typ des Barcodes, welcher erkannt werden soll.

Befinden sich auf einem Dokument mehrere Barcodes, kann hier durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code).

Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Orientierung

Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden.

Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Position

Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Größe

Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Textübereinstimmung

Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss.

Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.

Einem Attribut zuweisen

Hier kann ein Dokumentattribut vom Typ String ausgewählt werden, dem der ausgelesene Wert des Barcodes übertragen wird.

Sind mehrere gleichartige Barcodes vorhanden, kann über zwei Optionen bestimmt werden, ob nur der erste Barcode-Wert übernommen werden soll, oder alle Werte.

  • Nur ersten erkannten Barcode übernehmen (bei Stapeltrennung wird der erste Barcode pro getrenntem Dokument übernommen)

  • Alle, getrennt durch Zeichen “;“

Tab Umwandlung

Im Tab Umwandlung kann konfiguriert werden, ob das eingehende Dokument in ein textlesbares PDF konvertiert und wie es im Archiv gespeichert werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Dokument in anderes Format konvertieren

Kennzeichen, ob das Original-Dokument in ein textlesbares PDF umgewandelt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Es können Bild- (z.B. TIFF) und PDF-Dokumente umgewandelt werden.

Eine Umwandlung wird dann empfohlen, wenn es sich um nicht textlesbare PDF-Dokumente handelt (z.B. eingescannte Dokumente) oder die Qualität des Textes sehr schlecht ist (z.B. wenn im Scanner nur eine einfache OCR integriert ist)

Zielformat

Textlesbares PDF bzw. PDF/A (PDF-A ist ein Langzeit-Dokumentenformat)

Speichern unter

Hier muss ausgewählt werden, wie das umgewandelte Dokument gespeichert werden soll. Es stehen folgende Optionen zur Verfügung:

  • Konvertierter Inhalt
    Das umgewandelte Dokument wird zum Original gespeichert als “konvertierter Inhalt”.

  • Neues Dokument
    Das umgewandelte Dokument wird als neues und eigenständiges Dokument archiviert, zum Original wird eine Verknüpfung hinzugefügt.
    Wenn das Dokument als neues Dokument gespeichert werden soll, ist es möglich, eine Ablagevorlage (zur Definition des Zielordners des neuen Dokuments) anzugeben und weitere Module (für Folgeaktionen mit dem neuen Dokument) zu benachrichtigen.


    Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group), die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden.

     

  • Neue Dokumentversion
    Das umgewandelte Dokument wird als neue Version zum Original gespeichert.

Tab Aufteilung

Im Tab Aufteilung kann konfiguriert werden, wie ein Dokumentstapel in einzelne Dokumente aufgeteilt werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Dokument aufteilen

Kennzeichen, ob das Original-Dokument in mehrere Einzeldokumente aufgeteilt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Zielformat der aufgeteilten Dokumente

Hier kann gewählt werden, ob die aufgeteilten Dokumente in das Format PDF bzw. PDF-A (PDF-A ist ein Langzeit-Dokumentenformat) konvertiert werden sollen.

Ablagevorlage für aufgeteilte Dokumente

Hier kann gewählt werden, ob eine Ablagevorlage (zur Definition des Zielordners der neuen Dokumente) verwendet werden soll.

Benachrichtigung

Hier kann gewählt werden, ob weitere Module (für Folgeaktionen mit den neuen Dokumenten) benachrichtigt werden sollen.

Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group) die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden. Der genannte Einstellungsdialog steht nur bei der Benachrichtigung an den ACC Capture-Process zur Verfügung.

Erfassung auf COG beschränken

Mit der Aufteilungsart wird bestimmt, nach welchen Kriterien der Dokumentstapel aufgeteilt werden soll. Es stehen folgende Aufteilungsarten zur Verfügung:

  • Seitenanzahl

  • Leerseite

  • Inhalt

  • Barcode

 

Je nach Aufteilungsart können weitere Einstellungen vorgenommen werden. Diese werden nachfolgend näher beschrieben.

Aufteilung nach Seitenanzahl

Bei der Aufteilung nach Seitenanzahl wird das Dokument immer nach einer bestimmten Anzahl von Seiten getrennt. Alle Dokumente haben immer dieselbe Anzahl von Seiten, lediglich das letzte Dokument kann weniger Seiten beinhalten.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Trennseite

Bei der Aufteilung nach Seitenanzahl kann die Trennseite nicht ausgewählt werden. Dies ist immer die erste Seite.

Seitenanzahl

Angabe, nach wie viele Seiten zu einem Dokument gehören.

Aufteilung nach Leerseite

Bei der Aufteilung nach Leerseite wird das Dokument immer beim Vorkommen einer Leerseite getrennt.

Leerseitenerkennung von manchen Scangeräten berücksichtigen!

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Trennseite

Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden:

  • Erste Seite
    Hier wird der Dokumentstapel vor der Leerseite getrennt und die Leerseite als erste Seite des nächsten Dokuments hinzugefügt

  • Letzte Seite
    Hier wird der Dokumentstapel nach der Leerseite getrennt und die Leerseite als letzte Seite des Dokuments hinzugefügt

  • Entfernen
    Hier wird der Dokumentstapel vor der Leerseite getrennt, die Leerseite verworfen und das nächste Dokument ohne Leerseite erzeugt

Aufteilung nach Inhalt

Bei der Aufteilung nach Inhalt wird eine Trennseite nach deren Inhalt erkannt.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Trennseite

Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden:

  • Erste Seite
    Hier wird der Dokumentstapel vor der Seite mit dem gefundenen Text (=Trennseite) getrennt und die Trennseite als erste Seite des nächsten Dokuments hinzugefügt

  • Letzte Seite
    Hier wird der Dokumentstapel nach der Trennseite getrennt und die Trennseite als letzte Seite des Dokuments hinzugefügt

  • Entfernen
    Hier wird der Dokumentstapel vor der Trennseite getrennt, die Trennseite verworfen und das nächste Dokument ohne Leerseite erzeugt

Textübereinstimmung

Text, welcher auf der Trennseite enthalten sein muss.

Wenn die Option Reg. Ausdruck gesetzt wird, kann ein regulärer Ausdruck zur genauen Bestimmung des Begriffes verwendet werden.

Groß-/Kleinschreibung beachten

Diese Option bewirkt, dass beim Vergleich der Textübereinstimmung die Groß- und Kleinschreibung berücksichtigt wird.

Text kann eine Teilzeichenfolge sein

Mit dieser Option wird festgelegt, ob der angegebene Wert nur ein Teil des Begriffes ist.

Leerzeichen ignorieren

Wird diese Option aktiviert, werden alle Leerzeichen, die erkannt wurden automatisch entfernt und nicht berücksichtigt. Dies kann z.B. notwendig sein, wenn bei größeren Schriftarten die Zeichenabstände sehr groß werden und die OCR-Erkennung fälschlicher Weise Leerzeichen einfügt.

Aufteilung nach Barcode

Bei der Aufteilung nach Barcode wird eine Trennseite anhand eines darauf erkannten Barcodes gesucht.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Typ

Typ des Barcodes, welcher erkannt werden soll.

Befinden sich auf einem Dokument mehrere Barcodes, kann durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code).

Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Orientierung

Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden.

Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Codierung des Barcodes

Codierung des Barcodes, welcher erkannt werden soll.

Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Position

Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Größe

Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Textübereinstimmung

Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss.

Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.

 

Informationen zu regulären Ausdrücken finden Sie hier.

 

Verwandte Themen