OCR-Vorlagen

Beschreibung

Die OCR-Erkennung (Optical Character Recognition) versucht, Bildinformationen in einen Text zu wandeln. Dies ist ein sehr komplexer Vorgang und kann je nach Scanqualität (Kontrast, Bildrauschen, Verzerrung etc.) mal mehr oder weniger gute Ergebnisse liefern. Die ABBYY-OCR bietet hierzu viele Einstellmöglichkeiten, um die Erkennungsqualität zu optimieren. Deshalb werden je nach Szenario unterschiedliche Einstellungen vorgeschlagen, welche in verschiedenen OCR-Vorlagen vordefiniert sind. Wenn für einzelne Dokumente schlechtere Ergebnisse geliefert werden, können für dieses Dokument andere OCR-Vorlagen ausprobiert werden. Eine OCR-Vorlage wird bei der Analyseregel im Tab OCR ausgewählt.

Für die Tesseract-OCR ist die Standard-Konfiguration in allen OCR-Vorlagen enthalten, so dass die Tesseract-OCR grundsätzlich mit allen OCR-Vorlagen funktioniert. Sollten jedoch nicht die gewünschten Ergebnisse erzielt werden, so kann die OCR-Analyse mit einer der speziell für die Tesseract-OCR erstellten Vorlagen durchgeführt werden. Aktuell stehen folgende Vorlagen für die Tesseract-OCR zur Verfügung:

  • 07) Tesseract (200dpi, deu)
    Es wird der bei der OCR ermittelte Text übernommen, unabhängig davon, ob es sich um ein textlesbares PDF-Dokument handelt oder nicht.

  • 09) Tesseract (200dpi, deu, Text bevorzugen)
    Bei textlesbaren PDF-Dokumenten wird keine OCR durchgeführt, sondern der im Dokument enthaltene Text direkt aus dem PDF ausgelesen. Lediglich bei PDF-Dokumenten ohne vorhandenem Text (z.B. eingescannte Dokumente) wird die OCR angewandt.

  • 10) Tesseract (200dpi, deu, Nur OCR-Ergebnis)
    Auch bei textlesbaren PDF-Dokumenten wird die OCR durchgeführt. In diesem Falle wird nur das Ergebnis der OCR-Erkennung übernommen, nicht jedoch der bereits im Dokument enthaltene Text.

Die von uns mitgelieferten OCR-Vorlagen werden bei jedem Update der Accantum-Dienste aktualisiert. Darin vorgenommene Änderungen werden somit überschrieben und gehen verloren. Deshalb sollten spezielle Anpassungen unter einer anderen Vorlage gespeichert werden.

Toolbar

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Wiederherstellen

Die Schaltfläche  steht nur zur Verfügung, wenn ein gelöschter Listeneintrag ausgewählt wurde.

Speichern

Hilfe > Hier wird automatisch auf die Wiki-Seite verlinkt

Eigenschaften

Allgemein

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Name

Name der OCR-Vorlage

ID

Interne ID der OCR-Vorlage

Tab Eigenschaften

 

Hier kann die Konfiguration einer OCR-Vorlage eingesehen werden.

Feld / Schaltfläche

Beschreibung

Feld / Schaltfläche

Beschreibung

Beschreibung

Detaillierte Beschreibung der OCR-Vorlage

Metadaten

XML-Konfiguration der OCR-Vorlage. Die Konfiguration kann nicht geändert werden.

 

Verwandte Themen