Tab: Tabelle in der Erfassungsvorlage

Unter dem Kartenreiter “Tabelle” kann eine Tabelle des Dokuments definiert und die darin enthaltenen Daten erfasst werden (z.B. Rechnungspositionen). Sobald der Schalter Tabelle verwenden auf Ja gesetzt wird, werden die anderen Kartenreiter Spalten und Zeilenattribute aktiviert und die Tabelle kann konfiguriert werden. In diesem Falle kann die Erfassungsvorlage erst dann gespeichert werden, wenn mindestens eine Spalte konfiguriert wurde.

Tabelleninhalte können nicht beim Dokument im DMS gespeichert, sondern nur zur Weiterverarbeitung durch Drittsysteme (z.B. [accantum] WMS) exportiert werden. Der Export kann im übergeordneten Kartenreiter Einstellungen konfiguriert werden.

 

Tab Tabelle

Unter dem Kartenreiter Tabelle werden allgemeingültige Einstellungen vorgenommen, um die Tabelle als Ganzes zu konfigurieren.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Tabelle verwenden

Erst wenn diese Option aktiviert wird, kann eine Tabelle konfiguriert werden. Für die Erfassung von Tabelleninhalten muss mindesten eine Spalte konfiguriert werden.

Referenztext für Kopfzeile

Angabe von Wörtern, welche in der Kopfzeile vorkommen (z.B. Pos, Artikelnummer, Gesamtpreis, etc.).

Es müssen mindestens zwei Wörter der Kopfzeile angegeben werden. Eine Kopfzeile wird erst erkannt, wenn zwei oder mehr der angegebenen Wörter erkannt wurden.

Gibt es mehrere Textzeilen, in denen die angegebenen Wörter vorkommen, wird die Textzeile als Kopfzeile verwendet, in der die meisten der angegebenen Wörter enthalten sind.

Es ist nicht unbedingt notwendig, Wörter für Kopfzeilen anzugeben, jedoch erhöht dies die Erkennungsqualität, da sonst Texte außerhalb der Tabelle einer Tabellenzeile zugeordnet werden könnten.

 

Kopfzeile muss existieren

Kennzeichen, ob eine Kopfzeile existieren muss. Dieses Kennzeichen sollte gesetzt werden, wenn sichergestellt ist, dass die Kopfzeile auch auf allen Folgeseiten vorhanden ist, wenn sich die Tabelle auf mehrere Seiten erstreckt. Wird keine Kopfzeile erkannt (oder ist keine vorhanden), wird der obere Seitenrand als Tabellenbeginn verwendet.

Kopfzeile muss alle Texte enthalten

Mit diesem Kennzeichen kann erzwungen werden, dass alle beim Referenztext für die Kopfzeile angegebenen Wörter in der Kopfzeile enthalten sein müssen. Bei eingescannten Belegen kann dies jedoch zu Problemen führen, wenn eine hohe Scanqualität (und damit Erkennungsqualität) nicht sichergestellt werden kann.

Referenztext für Fußzeile

Angabe von Wörtern, welche in der Fußzeile vorkommen (z.B. Übertrag, Endbetrag, etc.).

Hier gelten die gleichen Bestimmungen wie bereits bei Referenztext für Kopfzeile beschrieben.

Fußzeile muss existieren

Kennzeichen, ob eine Fußzeile existieren muss. Dieses Kennzeichen sollte gesetzt werden, wenn sichergestellt ist, dass die Fußzeile auch auf allen Folgeseiten vorhanden ist, wenn sich die Tabelle auf mehrere Seiten erstreckt. Wird keine Fußzeile erkannt (oder ist keine vorhanden), wird der untere Seitenrand als Tabellenende verwendet.

Fußzeile muss alle Texte enthalten

Mit diesem Kennzeichen kann erzwungen werden, dass alle beim Referenztext für die Fußzeile angegebenen Wörter in der Fußzeile enthalten sein müssen. Bei eingescannten Belegen kann dies jedoch zu Problemen führen, wenn eine hohe Scanqualität (und damit Erkennungsqualität) nicht sichergestellt werden kann.

Tabelle enthält Seitenumbrüche innerhalb von Positionen

Dieses Kennzeichen sollte nur dann auf Ja gesetzt werden, wenn innerhalb von Tabellenzeilen ein Seitenumbruch stattfinden kann. In diesem Fall werden alle Inhalte zwischen der der Kopfzeile und der ersten Tabellenzeile der Seite der letzten Tabellenzeile der vorherigen Seite zugeordnet. Konnte keine Kopfzeile ermittelt werden, dann werden folglich alle Inhalte oberhalb der ersten Tabellenzeile zugeordnet. Nicht erwünschte Texte (z.B. Übertrag) können bei der jeweiligen Spalte ausgeklammert werden.

Unschärfe für Zeile

Die Einstellungsmöglichkeit Unschärfe für Zeile gibt für den jeweiligen Bereich an (oben, unten oder beides), um wieviel Millimeter die angegebenen Werte von einer geraden Zeile abweichen können und dennoch als jeweiliger Referenztext erfolgreich zugeordnet werden. Dies ist primär nur dann relevant, wenn der Blatt-Einzug des Scanners die Belege schief einzieht.

Ausschlusskriterium für Tabellenzeilen

Hier kann ein regulärer Ausdruck für den Ausschluss von Tabellenzeilen angegeben werden. Dies ist z.B. dann notwendig, wenn Gruppensummen nicht in die Liste der Rechnungspositionen übernommen werden sollen.

Als einfacher regulärer Ausdruck für Gruppensummen könnte also lauten: “Summe:|Summe\sDienstleistung“
Damit werden alle Tabellenzeilen ignoriert, welche entweder den Betriff “Summe:” ODER den Begriff “Summe Dienstleistung” enthalten. Mehrere Begriffe können mit ODER “|” verknüpft werden, wobei kein Leerzeichen angegeben werden darf. Leerzeichen innerhalb eines Begriffs werden als “\s” angegeben (z.B. “Summe\sDienstleistung“)

Weitere Informationen zu regulären Ausdrücken finden Sie hier

Tab Spalten

Unter dem Kartenreiter Spalten werden die Spalten der Tabelle definiert. Nach dem Hinzufügen einer neuen Spalte wird diese am Ende der Liste eingefügt. Dies Spalte kann aber per Drag&Drop an eine andere Position verschoben werden. Nach der Konfiguration der Spalten können diese in der grafischen Dokumentansicht (rechter Fensterbereich) per Maus ausgerichtet werden.

Wird eine neue Spalte hinzugefügt bzw. entfernt, richten sich die verbliebenen Spalte nach der Tabellenbreite neu aus. Deshalb sollten zuerst alle Spalten angegeben werden, bevor diese exakt ausgerichtet werden.

Die ausgelesenen Werte des gesamten Dokuments werden in der Positionsübersicht dargestellt. Änderungen an den Tabellen-Einstellungen können damit sofort überprüft werden.

Konfiguration einer Spalte

 

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Bezeichnung

Bezeichnung der Spalte

Datentyp

Hier wird festgelegt, welchem Format der auszulesende Wert entspricht. Ist ein Datentyp festgelegt, werden nur entsprechende Werte erkannt, nicht aber Werte, die einem anderen Datentyp entsprechen.

Verfügbare Datentypen sind:

  • Text (der Wert kann aus Buchstaben, Ziffern oder Sonderzeichen bestehen)

  • Ganzzahl (der Wert kann aus Ziffern bestehen)

  • Kommazahl (der Wert kann aus Ziffern, die mit einem Zeichen getrennt sind, Beispiel: . (Punkt) , (Komma) bestehen)

  • Datum (der Wert entspricht einem Datumsformat, Beispiel: 01.01.2017 oder 01.01.17)

Erforderlich

Kennzeichen, ob ein Wert in der Spalte zwingend erforderlich ist

Leerzeichen ignorieren

Mit diesem Kennzeichen kann festgelegt werden, ob bei der Erkennung eines Wertes die enthaltenen Leerzeichen ignoriert werden sollen.

Exakt vergleichen

Da bei eingescannten Dokumenten eine gewisse Ungenauigkeit bei der OCR-Erkennung vorkommen (z.B. Dezimalpunkt anstatt Komma), wurden Mechanismen umgesetzt, um diese Fehler auszugleichen. Wird jedoch eine Kommazahl ohne Dezimalstellen aber mit Tausenderpunkt erkannt (z.B. 1.234), so wird der Tausenderpunkt aufgrund der Unschärfe-Erkennung als Dezimalstelle interpretiert und es wird fälschlicher Weise der Wert 1,234 ausgelesen.

Um dies zu verhindern kann das Kennzeichen Exakt vergleichen gesetzt werden, so dass der Mechanismus für die Unschärfe unterbunden wird.

Zeilenumbrüche beibehalten

Wird dieses Kennzeichen gesetzt, dann bleiben vorhandene Zeilenumbrüche eines mehrzeiligen Textes erhalten.

Bereich / Textlänge

Hier kann in Abhängigkeit des Datentyps angegeben werden, in welchem Bereich sich eine Zahl bzw. Datum befinden oder wie lange ein Text sein muss. Liegt ein Wert außerhalt des angegebenen Bereichs, dann wird ein entsprechender Fehlerstatus bei der Tabellenzeile hinterlegt, welcher vom Drittsystem ausgewertet werden kann.

Mehrzeilig

Hier wird festgelegt, ob der Wert innerhalb der Spalte aus mehreren Zeilen bestehen kann (häufig zu verwenden bei längeren Artikelbezeichnungen).

Inhalt spaltenübergreifend

Mit dem Kennzeichen Inhalt spaltenübergreifend wird festgelegt, ob sich der Wert über mehrere Spalten erstrecken kann (häufig zu verwenden bei längeren Artikelbezeichnungen). Im Beispiel zu sehen an der Spalte Bezeichnung und der dritten Artikelposition:

 

Identifiziert neue Zeile

Mit dem Kennzeichen Identifiziert neue Zeile wird festgelegt, ob mit einem erkannten Wert in dieser Spalte gleichzeitig der Beginn einer neuen Tabellenzeile identifiziert wird. Es können auch mehrere Spalten als Identifizierung einer neuen Tabellenzeile festgelegt werden

Unschärfe für Spalte

Im Einstellungsbereich Unschärfe für Spalte wird festgelegt, um wieviel Millimeter die festgelegten Spaltenbreiten abweichen können und dennoch die Inhalte erfolgreich erkannt werden (links, rechts oder bei beidem). Normalerweise braucht die Unschärfe nur dann verändert werden, wenn die Werte zweier Spalten sehr eng beieinander liegen oder das Dokument durch den Scanner schief eingezogen wird.

Text ausschließen

Regulärer Ausdruck für Textausschluss (gefundener Text wird durch Leerstring ersetzt).
Benötigt, um z.B. bei Seitenumbruch einen Info-Text "Fortsetzung von Seite 2" aus dem Positionstext zu entfernen

Reg. Ausdruck

Mit regulären Ausdrücken können aus dem Dokument ausgelesene Werte auf Richtigkeit überprüft werden. Nur wenn der ausgelesene Wert dem konfigurierten regulären Ausdruck entspricht, wird der Wert ausgelesen.

Beispiel: Das Dokumentendatum soll auf Richtigkeit geprüft werden und nur dann, wenn es dem regulären Ausdruck entspricht, ausgelesen werden.

  • Dokumentendatum = 01.01.2017

  • Regulärer Ausdruck = [0-9]{1,2}\.[0-9]{1,2}\.[0-9]{2,4}

  • Erklärung [0-9]: Nur die Ziffern von 0-9 sind erlaubt.

  • Erklärung {1,2}: Die Ziffern sind Ein- oder Zweistellig.

  • Erklärung . : Nach den Ziffern (Ein- oder Zweistellig) kommt ein Punkt (.).

 

Weitere Beispiele zu den regulären Ausdrücken, können bei den Regulären Ausdrücken nachgelesen werden.

Ersetzungstext für reguläre Ausdrücke

Weiterhin kann im Falle einer erfolgreichen Prüfung durch den regulären Ausdruck der erkannte Wert durch einen definierten Inhalt ersetzt werden (= „Ersetzungstext für reguläre Ausdrücke“). Hier kann noch festgelegt werden, ob der zuerst zutreffende Wert erkannt werden soll, oder ob alle zutreffenden Werte, getrennt durch ein definiertes Zeichen, erkannt werden sollen.

 

 

Tab Zeilenattribute

Bei vielen Dokumenten ist es nicht immer möglich, dass alle Informationen einer Tabelle nur anhand von Spaltendefinitionen ausgelesen werden können. Oftmals befinden sich relevante Informationen wie z.B. eine Bestellnummer oder die Materialaufschlüsselung eines Produktes innerhalb der Artikelbeschreibung. Um auch solche Informationen zielgerichtet auslesen zu können, gibt es die sog. Zeilenattribute. Die Zeilenattribute lassen sich ähnlich den “normalen” Attributen konfigurieren, werden aber immer relativ zu einem Referenztext positioniert. Ist kein Referenztext vorhanden, kann auch per regulärem Ausdruck (siehe auch bei Reguläre Ausdrücke) z.B. auf die Positionsnummer verwiesen werden (z.B. “^\d{1,3}$” - eine Zahl bestehend aus 1-3 Ziffern), wenn sich diese in der ersten Spalte befindet.

Die Zeilenattribute werden in der Positionsliste wie Spalten behandelt, so dass auch in Drittsystemen wie gewohnt auf die ausgelesenen Werte zugreifen können.

 

Konfiguration eines Tabellenzeilenattributs

Da die Konfiguration der Tabellenzeilenattribute nahezu identisch mit der Konfiguration der “normalen” Attribute bzw. der Tabellenspalten ist, wird hier nicht mehr näher darauf eingegangen. Dies kann unter Attribute der Erfassungsvorlage und weiter oben auf dieser Seite nachgelesen werden.

 

 

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Name

Name des Zeilenattributs

Datentyp

Datentyp des Zeilenattributs

Erforderlich

Kennzeichen, ob das Zeilenattribut erforderlich ist

Leerzeichen ignorieren

Kennzeichen, ob Leerzeichen ignoriert werden sollen

Exakt vergleichen

Kennzeichen, ob Werte ohne Berücksichtigung von Unschärfen erkannt werden sollen (besonders bei Kommazahlen und Datumswerten)

Zeilenumbrüche beibehalten

Kennzeichen, ob Zeilenumbrüche bei mehrzeiligen Texten beibehalten werden sollen

Bereich / Textlänge

Angabe von erlaubten Minimal- und Maximalwerten

Reg. Ausdruck

Wert nur anhand eines regulären Ausdrucks erkennen und übernehmen

Ersetzungstext für reguläre Ausdrücke

Ersetzungstext bei Verwendung eines regulären Ausdrucks

Nur erste Übereinstimmung übernehmen

Es wird nur der erste erkannte Wert übernommen

Alle Übereinstimmungen übernehmen

Passt der reguläre Ausdruck auf mehrere Werte, dann werden alle Werte übernommen und mit dem angegebenen Trennzeichen voneinander getrennt

Referenztext

Referenztext für die Positionierung des Zeilenattributs

Referenztext entspricht einem reg. Ausdruck

Kennzeichen, dass der angegebene Referenztext ein regulärer Ausdruck ist

Regulärer Ausdruck bezieht sich auf mehrere zusammengehörige Wörter

Kennzeichen, dass der reguläre Ausdruck auf die gesamte Textzeile angewendet werden soll

 

Verwandte Themen