Toolbar
Feld / Schaltfläche | Beschreibung |
---|---|
Wiederherstellen Die Schaltfläche steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde. | |
Speichern | |
Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt |
Eigenschaften
Allgemein
Feld / Schaltfläche | Beschreibung |
---|---|
Name | Name der Analyseregel |
ID | Interne ID der Analyseregel |
Tab Eigenschaften
Hier werden allgemeine Einstellungen der Analyseregel konfiguriert.
Feld / Schaltfläche | Beschreibung |
---|---|
Beschreibung | Detaillierte Beschreibung der Analyseregel |
FilePicker-Verzeichnis | Sobald ein FilePicker-Verzeichnis angegeben wurde, wird im Scan-Verzeichnis ein Unterordner mit dem hier angegebenen Namen erstellt. |
Posteingangsordner | Angabe eines Posteingangsordner, in dem die Dokumente nach der Analyse abgelegt werden. Es kann entweder ein bestehender Posteingang ausgewählt bzw. ein neuer erstellt werden. Bei der Anwendung einer Ablagevorlage können die Dokumente dann an einen anderen Ablageort verschoben werden. |
Benachrichtigung | Benachrichtigung von externen bzw. internen Modulen (z.B. Capture), um das Dokument nach der Analyse automatisch weiterverarbeiten zu lassen. |
Ablagevorlage | Auswahl einer Ablagevorlage, um das Dokument direkt nach der Analyse nach bestimmten Kriterien abzulegen. |
Passwort | Sollten Passwort-geschützte PDF-Dokumente analysiert werden müssen, dann kann hier das Passwort hinterlegt werden. Pro Analyseregel kann nur ein Passwort angegeben werden. |
Tab OCR
Hier wird festgelegt, ob eine OCR-Erkennung durchgeführt werden soll und mit welchen Optionen.
Feld / Schaltfläche | Beschreibung |
---|---|
OCR-Erkennung durchführen | Kennzeichen, ob eine OCR-Erkennung durchgeführt werden soll. Für eingescannte Dokumente (z.B. TIFF, PDF) sollte immer eine OCR durchgeführt werden, da sonst keine automatische Erkennung möglich ist. Ausnahme sind Scanner, welche bereits intern eine OCR durchführen und ein textlesbares PDF übergeben. Hier sollte aber die Erkennungsqualität geprüft werden. Dokumente, für welche keine OCR durchgeführt werden kann (z.B. E-Mail, Office-Dokumente) werden ohne OCR analysiert. Wenn keine OCR-Erkennung durchgeführt werden soll, dann stehen die Tabs Barcode, Umwandlung und Aufteilung nicht zur Verfügung. |
PDF-Verarbeitung ohne OCR bevorzugen | Mit diesem Kennzeichen kann speziell für die Analyse von PDF-Dokumenten (Dateiendung *.pdf) eine zweistufige Analyse aktiviert werden. Im ersten Schritt wird geprüft, ob ein Text in dem PDF enthalten ist. Wenn ja, dann wird das PDF analysiert, ohne OCR-Lizenzen zu verbrauchen. Wenn kein Text enthalten ist (z.B. bei eingescannten Belegen), dann wird das PDF-Dokument mit der OCR analysiert und ggf. in ein textlesbares Umgewandelt. Wird die 2-stufige PDF-Analyse gewählt, dann ist weder eine Barcode-Erkennung noch ein Aufteilen von Dokumenten möglich. Werte, welche unter den Tabs Barcode und Aufteilung eingetragen sind, werden gelöscht und sind nach dem Speichern nicht mehr wieder herstellbar. |
Dokument erst nach der OCR-Analyse zur Verfügung stellen | Dieses Kennzeichen sollte immer gesetzt werden, da es sonst vorkommen kann, dass das Dokument bereits für den Benutzer sichtbar ist, bevor dieses mit OCR-Infos angereichert wurde. Wenn das Dokument durch den Benutzer geöffnet und dadurch gesperrt wird, kann es vorkommen, dass die OCR-Ergebnisse nicht zum Dokument gespeichert werden können. |
OCR-Vorlage | Bei der OCR-Analyse mit ABBYY können unterschiedliche Einstellungen der Parameter zu besseren bzw. auch schlechteren Ergebnissen führen. Deshalb sollten bei Problemen mit der Erkennung die unterschiedlichen Vorlagen ausprobiert werden, welche die besten Ergebnisse liefern. Bei allen ABBYY OCR-Vorlagen ist auch die Standard-Konfiguration für die Tesseract-OCR hinterlegt, so dass es bei der Verwendung der Tesseract-OCR die Auswahl der OCR-Vorlage keine Auswirkung hat. |
Analysieren | Sollte bei mehrseitigen Dokumenten nur die ersten x Seiten für die Dokumenterkennung relevant sein, kann die OCR-Analyse auf eine bestimmte Anzahl Seiten begrenzt werden. Neben der Einsparung von OCR-Lizenzen kann dies auch die Performance bei der Dokumenterkennung steigern. |
OCR Info für Original ignorieren | Wenn diese Option aktiviert wird, werden die Daten der Texterkennung nicht zum Dokument gespeichert. Dies bedeutet allerdings, dass die Dokumente, welche mit dieser Analyseregel analysiert werden, bei einer Volltextsuche nicht mehr gefunden werden. Diese Option ist nur dann sinnvoll, wenn das Dokument in ein textlesbares PDF bzw. PDF/A umgewandelt bzw. ein Stapel getrennt wird und die OCR-Info bei den dabei erzeugten neuen Dokumenten gespeichert wird (eine Verknüpfung zum Original wird hergestellt). |
Die OCR Info beinhaltet folgende Informationen:
OCR-Text
Barcodes
Thumbnails (für jede Seite)
Preview (eines für das ganze Dokument)
Zum Dokument werden Seiten-Contents hinzugefügt (wenn „OCR-Info ignorieren“ = Aktiv, dann hat das Original-Dokument immer „Anzahl Seiten = 1“, auch wenn das Dokument aus 100 Seiten bestehen würde).
Es können folgende Dateitypen per OCR verarbeitet werden (Auszug): bmp, gif, jpg, jpeg, pdf, png, tif, tiff
Welche Dateitypen für die OCR berücksichtigt werden sollen, kann in den Parametern im Bereich OCR bestimmt werden.
Tab Barcode
Im Tab Barcode kann konfiguriert werden, ob Barcodes generell erkannt und der Barcodeinhalt in einem dafür vorgesehenen Dokumentattribut gespeichert werden soll.
Die Barcode-Erkennung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).
Feld / Schaltfläche | Beschreibung |
---|---|
Barcode erkennen | Kennzeichen, ob Barcodes auf dem Dokument erkannt werden sollen. Wenn nein, dann stehen alle nachfolgenden Felder nicht zur Verfügung. |
Codierung des Barcodes | Codierung des Barcodes, welcher erkannt werden soll. Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Hinzufügen einer Barcode-Zuordnung | |
Entfernen einer Barcode-Zuordnung |
Wird eine neue Barcode-Zuordnung hinzugefügt bzw. eine bestehende geändert, öffnet sich folgender Dialog:
Feld / Schaltfläche | Beschreibung |
---|---|
Typ | Typ des Barcodes, welcher erkannt werden soll. Befinden sich auf einem Dokument mehrere Barcodes, kann hier durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code). Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Orientierung | Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden. Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Position | Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt. |
Größe | Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt. |
Textübereinstimmung | Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss. Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden. |
Einem Attribut zuweisen | Hier kann ein Dokumentattribut vom Typ String ausgewählt werden, dem der ausgelesene Wert des Barcodes übertragen wird. Sind mehrere gleichartige Barcodes vorhanden, kann über zwei Optionen bestimmt werden, ob nur der erste Barcode-Wert übernommen werden soll, oder alle Werte.
|
Tab Umwandlung
Im Tab Umwandlung kann konfiguriert werden, ob das eingehende Dokument in ein textlesbares PDF konvertiert und wie es im Archiv gespeichert werden soll.
Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).
Feld / Schaltfläche | Beschreibung |
---|---|
Dokument in anderes Format konvertieren | Kennzeichen, ob das Original-Dokument in ein textlesbares PDF umgewandelt werden soll. Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung. Es können Bild- (z.B. TIFF) und PDF-Dokumente umgewandelt werden. Eine Umwandlung wird dann empfohlen, wenn es sich um nicht textlesbare PDF-Dokumente handelt (z.B. eingescannte Dokumente) oder die Qualität des Textes sehr schlecht ist (z.B. wenn im Scanner nur eine einfache OCR integriert ist) |
Zielformat | Textlesbares PDF bzw. PDF/A (PDF-A ist ein Langzeit-Dokumentenformat) |
Speichern unter | Hier muss ausgewählt werden, wie das umgewandelte Dokument gespeichert werden soll. Es stehen folgende Optionen zur Verfügung:
|
Tab Aufteilung
Im Tab Aufteilung kann konfiguriert werden, wie ein Dokumentstapel in einzelne Dokumente aufgeteilt werden soll.
Die Umwandlung steht nur bei aktivierter OCR-Erkennung zur Verfügung (Option OCR-Erkennung (ABBYY) durchführen im Tab OCR).
Feld / Schaltfläche | Beschreibung |
---|---|
Dokument aufteilen | Kennzeichen, ob das Original-Dokument in mehrere Einzeldokumente aufgeteilt werden soll. Wenn nein, dann stehen alle folgenden Felder nicht zur Verfügung. |
Zielformat der aufgeteilten Dokumente | Hier kann gewählt werden, ob die aufgeteilten Dokumente in das Format PDF bzw. PDF-A (PDF-A ist ein Langzeit-Dokumentenformat) konvertiert werden sollen. |
Ablagevorlage für aufgeteilte Dokumente | Hier kann gewählt werden, ob eine Ablagevorlage (zur Definition des Zielordners der neuen Dokumente) verwendet werden soll. |
Benachrichtigung | Hier kann gewählt werden, ob weitere Module (für Folgeaktionen mit den neuen Dokumenten) benachrichtigt werden sollen. Bei einer Benachrichtigung an den ACC Capture-Process erscheint ein weiteres Feld Erfassung auf COG beschränken. Hier kann im Rahmen einer COG (Capture Organisation Group) die Erkennung der Dokumente auf gewissen Erfassungsvorlagen eingeschränkt werden. Der genannte Einstellungsdialog steht nur bei der Benachrichtigung an den ACC Capture-Process zur Verfügung. |
Erfassung auf COG beschränken | Mit der Aufteilungsart wird bestimmt, nach welchen Kriterien der Dokumentstapel aufgeteilt werden soll. Es stehen folgende Aufteilungsarten zur Verfügung:
Je nach Aufteilungsart können weitere Einstellungen vorgenommen werden. Diese werden nachfolgend näher beschrieben. |
Aufteilung nach Seitenanzahl
Bei der Aufteilung nach Seitenanzahl wird das Dokument immer nach einer bestimmten Anzahl von Seiten getrennt. Alle Dokumente haben immer dieselbe Anzahl von Seiten, lediglich das letzte Dokument kann weniger Seiten beinhalten.
Feld / Schaltfläche | Beschreibung |
---|---|
Trennseite | Bei der Aufteilung nach Seitenanzahl kann die Trennseite nicht ausgewählt werden. Dies ist immer die erste Seite. |
Seitenanzahl | Angabe, nach wie viele Seiten zu einem Dokument gehören. |
Aufteilung nach Leerseite
Bei der Aufteilung nach Leerseite wird das Dokument immer beim Vorkommen einer Leerseite getrennt.
Leerseitenerkennung von manchen Scangeräten berücksichtigen!
Feld / Schaltfläche | Beschreibung |
---|---|
Trennseite | Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden:
|
Aufteilung nach Inhalt
Bei der Aufteilung nach Inhalt wird eine Trennseite nach deren Inhalt erkannt.
Feld / Schaltfläche | Beschreibung |
---|---|
Trennseite | Bei der Trennseite kann eine der folgenden Optionen ausgewählt werden:
|
Textübereinstimmung | Text, welcher auf der Trennseite enthalten sein muss. Wenn die Option Reg. Ausdruck gesetzt wird, kann ein regulärer Ausdruck zur genauen Bestimmung des Begriffes verwendet werden. |
Groß-/Kleinschreibung beachten | Diese Option bewirkt, dass beim Vergleich der Textübereinstimmung die Groß- und Kleinschreibung berücksichtigt wird. |
Text kann eine Teilzeichenfolge sein | Mit dieser Option wird festgelegt, ob der angegebene Wert nur ein Teil des Begriffes ist. |
Leerzeichen ignorieren | Wird diese Option aktiviert, werden alle Leerzeichen, die erkannt wurden automatisch entfernt und nicht berücksichtigt. Dies kann z.B. notwendig sein, wenn bei größeren Schriftarten die Zeichenabstände sehr groß werden und die OCR-Erkennung fälschlicher Weise Leerzeichen einfügt. |
Aufteilung nach Barcode
Bei der Aufteilung nach Barcode wird eine Trennseite anhand eines darauf erkannten Barcodes gesucht.
Feld / Schaltfläche | Beschreibung |
---|---|
Typ | Typ des Barcodes, welcher erkannt werden soll. Befinden sich auf einem Dokument mehrere Barcodes, kann durch Angabe des Barcode-Typs der gesuchte Barcode eingeschränkt werden (z.B. DataMatrix oder QR-Code). Der Typ steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Orientierung | Hier kann die Orientierung (Drehwinkel) des Barcodes vorgegeben werden. Die Orientierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Codierung des Barcodes | Codierung des Barcodes, welcher erkannt werden soll. Die Codierung steht bei Verwendung der Tesseract-OCR nicht zur Verfügung. |
Position | Mit der Position und der Größe des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt. |
Größe | Mit der Größe und der Position des Barcodes kann das Vorkommen des Barcodes auf einen bestimmten Bereich eingeschränkt werden. Wird hier keine Angabe gemacht, dann werden die Barcodes auf der ganzen Seite berücksichtigt. |
Textübereinstimmung | Hier kann ein Text angegeben werden, welcher in dem Barcode enthalten sein muss. Mit der Option Regulärer Ausdruck wird der angegebene Text als regulärer Ausdruck interpretiert und kann damit wesentlich flexibler eingesetzt werden. |
Informationen zu regulären Ausdrücken finden Sie hier.