Zum Ende der Metadaten springen
Zum Anfang der Metadaten

Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 7 Nächste Version anzeigen »

Beschreibung

Mit einer Analyseregel wird definiert, wie eingehende Dokumente verarbeitet und ggf. auch abgelegt werden sollen. Eingescannte Dokumente können in textlesbare PDF-Dokumente gewandelt oder ein Dokumentstapel anhand von bestimmten Merkmalen getrennt werden.

Inhalt

Toolbar

Feld / Schaltfläche

Beschreibung

Wiederherstellen

Die Schaltfläche  steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde.

Speichern

Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt

Eigenschaften

Allgemein

Feld / Schaltfläche

Beschreibung

Name

Name der Analyseregel

ID

Interne ID der Analyseregel

Tab Eigenschaften

Hier werden allgemeine Einstellungen der Analyseregel konfiguriert.

Feld / Schaltfläche

Beschreibung

Beschreibung

Detaillierte Beschreibung der Analyseregel

FilePicker-Verzeichnis

Sobald ein FilePicker-Verzeichnis angegeben wurde, wird im Scan-Verzeichnis ein Unterordner mit dem hier angegebenen Namen erstellt.

Posteingangsordner

Angabe eines Posteingangsordner, in dem die Dokumente nach der Analyse abgelegt werden.

Es kann entweder ein bestehender Posteingang ausgewählt bzw. ein neuer erstellt werden.

Bei der Anwendung einer Ablagevorlage können die Dokumente dann an einen anderen Ablageort verschoben werden.

Benachrichtigung

Benachrichtigung von externen bzw. internen Modulen (z.B. Capture), um das Dokument nach der Analyse automatisch weiterverarbeiten zu lassen.

Ablagevorlage

Auswahl einer Ablagevorlage, um das Dokument direkt nach der Analyse nach bestimmten Kriterien abzulegen.

Passwort

Sollten Passwort-geschützte PDF-Dokumente analysiert werden müssen, dann kann hier das Passwort hinterlegt werden. Pro Analyseregel kann nur ein Passwort angegeben werden.

Tab OCR

Hier wird festgelegt, ob eine OCR-Erkennung durchgeführt werden soll und mit welchen Optionen.

Feld / Schaltfläche

Beschreibung

OCR-Erkennung durchführen

Kennzeichen, ob eine OCR-Erkennung durchgeführt werden soll.

Für eingescannte Dokumente (z.B. TIFF, PDF) sollte immer eine OCR durchgeführt werden, da sonst keine automatische Erkennung möglich ist. Ausnahme sind Scanner, welche bereits intern eine OCR durchführen und ein textlesbares PDF übergeben. Hier sollte aber die Erkennungsqualität geprüft werden.

Dokumente, für welche keine OCR durchgeführt werden kann (z.B. E-Mail, Office-Dokumente) werden ohne OCR analysiert.

Wenn keine OCR-Erkennung durchgeführt werden soll, dann stehen die Tabs Barcode, Umwandlung und Aufteilung nicht zur Verfügung.

PDF-Verarbeitung ohne OCR bevorzugen

Mit diesem Kennzeichen kann speziell für die Analyse von PDF-Dokumenten (Dateiendung *.pdf) eine zweistufige Analyse aktiviert werden. Im ersten Schritt wird geprüft, ob ein Text in dem PDF enthalten ist. Wenn ja, dann wird das PDF analysiert, ohne OCR-Lizenzen zu verbrauchen. Wenn kein Text enthalten ist (z.B. bei eingescannten Belegen), dann wird das PDF-Dokument mit der OCR analysiert und ggf. in ein textlesbares Umgewandelt.

Wird die 2-stufige PDF-Analyse gewählt, dann ist weder eine Barcode-Erkennung noch ein Aufteilen von Dokumenten möglich.

Dokument erst nach der OCR-Analyse zur Verfügung stellen

Dieses Kennzeichen sollte immer gesetzt werden, da es sonst vorkommen kann, dass das Dokument bereits für den Benutzer sichtbar ist, bevor dieses mit OCR-Infos angereichert wurde. Wenn das Dokument durch den Benutzer geöffnet und dadurch gesperrt wird, kann es vorkommen, dass die OCR-Ergebnisse nicht zum Dokument gespeichert werden können.

OCR-Vorlage

Bei der OCR-Analyse mit ABBYY können unterschiedliche Einstellungen der Parameter zu besseren bzw. auch schlechteren Ergebnissen führen. Deshalb sollten bei Problemen mit der Erkennung die unterschiedlichen Vorlagen ausprobiert werden, welche die besten Ergebnisse liefern. Bei allen ABBYY OCR-Vorlagen ist auch die Standard-Konfiguration für die Tesseract-OCR hinterlegt, so dass es bei der Verwendung der Tesseract-OCR die Auswahl der OCR-Vorlage keine Auswirkung hat.

Analysieren

Sollte bei mehrseitigen Dokumenten nur die ersten x Seiten für die Dokumenterkennung relevant sein, kann die OCR-Analyse auf eine bestimmte Anzahl Seiten begrenzt werden. Neben der Einsparung von OCR-Lizenzen kann dies auch die Performance bei der Dokumenterkennung steigern.

OCR Info für Original ignorieren

Wenn diese Option aktiviert wird, werden die Daten der Texterkennung nicht zum Dokument gespeichert. Dies bedeutet allerdings, dass die Dokumente, welche mit dieser Analyseregel analysiert werden, bei einer Volltextsuche nicht mehr gefunden werden. Diese Option ist nur dann sinnvoll, wenn das Dokument in ein textlesbares PDF bzw. PDF/A umgewandelt bzw. ein Stapel getrennt wird und die OCR-Info bei den dabei erzeugten neuen Dokumenten gespeichert wird (eine Verknüpfung zum Original wird hergestellt).

Die OCR Info beinhaltet folgende Informationen:

  • OCR-Text

  • Barcodes

  • Thumbnails (für jede Seite)

  • Preview (eines für das ganze Dokument)

  • Zum Dokument werden Seiten-Contents hinzugefügt (wenn „OCR-Info ignorieren“ = Aktiv, dann hat das Original-Dokument immer „Anzahl Seiten = 1“, auch wenn das Dokument aus 100 Seiten bestehen würde).

Es können folgende Dateitypen per OCR verarbeitet werden (Auszug): bmp, gif, jpg, jpeg, pdf, png, tif, tiff

Welche Dateitypen für die OCR berücksichtigt werden sollen, kann in den Parametern im Bereich OCR bestimmt werden.

Tab Barcode

Im Tab Barcode kann konfiguriert werden, ob Barcodes generell erkannt und der Barcodeinhalt in einem dafür vorgesehenen Dokumentattribut gespeichert werden soll.

Die Barcode-Erkennung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Barcode erkennen

Kennzeichen, ob Barcodes auf dem Dokument erkannt werden sollen.

Wenn nein, dann stehen alle nachfolgenden Felder nicht zur Verfügung.

Codierung des Barcodes

Codierung des Barcodes, welcher erkannt werden soll.

Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Hinzufügen einer Barcode-Zuordnung

Entfernen einer Barcode-Zuordnung

Wird eine neue Barcode-Zuordnung hinzugefügt bzw. eine bestehende geändert, öffnet sich folgender Dialog:

Feld / Schaltfläche

Beschreibung

Typ

Typ des Barcodes, welcher erkannt werden soll.

Befinden sich auf einem Dokument mehrere Barcodes, kann hier der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code).

Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Orientierung

Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden.

Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung.

Position

Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Größe

Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden.

Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt.

Textübereinstimmung

Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss.

Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden.

Einem Attribut zuweisen

Hier kann ein Dokumentattribut vom Typ String ausgewählt werden, dem der ausgelesene Wert des Barcodes übertragen wird.

Sind mehrere gleichartige Barcodes vorhanden, kann über zwei Optionen bestimmt werden, ob nur der erste Barcode-Wert übernommen werden soll, oder alle Werte.

  • Nur ersten erkannten Barcode übernehmen (bei Stapeltrennung wird der erste Barcode pro getrenntem Dokument übernommen)

  • Alle, getrennt durch Zeichen “;“

Tab Umwandlung

Im Tab Umwandlung kann konfiguriert werden, ob das eingehende Dokument in ein textlesbares PDF konvertiert und wie es im Archiv gespeichert werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Dokument in anderes Format konvertieren

Kennzeichen, ob das Original-Dokument in ein textlesbares PDF umgewandelt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Es können Bild- (z.B. TIFF) und PDF-Dokumente umgewandelt werden.

Eine Umwandlung wird dann empfohlen, wenn es sich um nicht textlesbare PDF-Dokumente handelt (z.B. eingescannte Dokumente) oder die Qualität des Textes sehr schlecht ist (z.B. wenn im Scanner nur eine einfache OCR integriert ist)

Zielformat

Textlesbares PDF bzw. PDF/A (PDF-A ist ein Langzeit-Dokumentenformat)

Speichern unter

Hier muss ausgewählt werden, wie das umgewandelte Dokument gespeichert werden soll. Es stehen folgende Optionen zur Verfügung:

  • Konvertierter Inhalt
    Das umgewandelte Dokument wird zum Original gespeichert als “konvertierter Inhalt”.

  • Neues Dokument
    Das umgewandelte Dokument wird als neues und eigenständiges Dokument archiviert, zum Original wird eine Verknüpfung hinzugefügt.
    Wenn das Dokument als neues Dokument gespeichert werden soll, ist es möglich, eine Ablagevorlage (zur Definition des Zielordners des neuen Dokuments) anzugeben und weitere Module (für Folgeaktionen mit dem neuen Dokument) zu benachrichtigen.


    Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group), die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden.

  • Neue Dokumentversion
    Das umgewandelte Dokument wird als neue Version zum Original gespeichert.

Tab Aufteilung

Im Tab Aufteilung kann konfiguriert werden, wie ein Dokumentstapel in einzelne Dokumente aufgeteilt werden soll.

Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).

Feld / Schaltfläche

Beschreibung

Dokument aufteilen

Kennzeichen, ob das Original-Dokument in mehrere Einzeldokumente aufgeteilt werden soll.

Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung.

Verwandte Themen

  • Keine Stichwörter