Was ist OCR?

Eine OCR (Optical Character Recognition, Optische Zeichenerkennung oder auch Texterkennung) wandelt ein bereits digitalisiertes Bild in Textzeichen um. Ein Bild mit Wörtern wird in maschinenlesbare Zeichen (Buchstaben, Zahlen, etc.) übersetzt. Wie dies noch besser funktioniert, erfahren Sie hier: Tipps und Tricks für bessere KI Erkennungsraten

Achtung: Leider gibt es in Diskussionen zwischen Fachabteilungen oder auch mit unseren Kunden*innen hier immer wieder Missverständnisse bzgl. der Begrifflichkeit (siehe dazu die Unterscheidung OCR, iOCR und KI).

OCR – Basis für die Prozess-Automatisierung

OCR ist eine Technologie, die die Umwandlung von gescannten Papierdokumenten, PDF-Dateien oder Digitalfotos in bearbeitbare Dokumente für Computer und Software (wie Microsoft Word oder FIBU Software) ermöglicht. Selbst Einzelposten lassen sich extrahieren, nachzulesen in diesem Blog Beitrag: Einzelposten erfassen mit OCR 

Wenn Sie also ein Dokument in Papierform haben – zum Beispiel eine Rechnung, eine Bestellung oder einen Vertrag, den Ihnen jemand als PDF-Anhang geschickt hat - dann reicht ein Scanner nicht aus, um mit den relevanten Informationen aus diesen Dokumenten zu arbeiten. Der Scanner macht nur ein Bild des Dokuments und dieses besteht aus einer Ansammlung von Bildpunkten. Zur Weiterverarbeitung der Informationen aus gescannten Dokumenten, Digitalbildern oder Bild-PDFs benötigen Sie eine OCR-Software, die in den digitalen Bildern Zeichen erkennt, diese zu Wörtern und Zahlen zusammensetzt, und daraus ganze Sätze baut. Damit erstellt die Software aus einem Bild eine Zeichenkette, einen Text. Dieser Absatz der Online-Enzyklopädie Wikipedia erklärt das Verfahren auch sehr gut: Texterkennung – Wikipedia. Nun fehlt aber noch die semantische Bedeutung des Texts und der Zahlen (z.B. welche Zahl ist der Bruttogesamtbetrag), damit Sie Ihre Prozesse ohne „human in the loop“ automatisieren können.

Wie funktioniert ein OCR-System?

Sehen wir uns an, wie eine OCR Software funktioniert. Als Erstes analysiert die OCR Applikation die Struktur des Dokuments. Es unterteilt eine Seite in Strukturelemente wie Textblöcke, Tabellen und Bilder. Anschließend werden Zeilen gebildet, welche in Wörter und schließlich in Buchstaben aufgeteilt werden. Wurden die einzelnen Buchstaben identifiziert, vergleicht das Programm diese mit einer Reihe von Musterbildern und berechnet die Wahrscheinlichkeit der Übereinstimmung (Zeichen ist zu 89% ein „A“). Die OCR Software entscheidet sich dann für das wahrscheinlichste Zeichen.

Ein OCR System kann darüber hinaus für mehrere Sprachen konfiguriert werden. Je mehr Sprachen abgedeckt werden sollen, desto schwieriger wird die Aufgabe für die OCR und die Erkennungsqualität kann sich verringern.

Zusätzlich bietet eine OCR Texterkennung oftmals eine Wörterbuchunterstützung für unterschiedliche Sprachen an. Damit kann die OCR für den Rechnungseingang einer bestimmten Domäne (z.B. Buchhaltung) optimiert werden.

Bildqualität ist entscheidend für die Automatisierung mit OCR

Ein Bild in ein Dokument umzuwandeln, dauert nur einige Sekunden. Dadurch erhält man in einem ersten Schritt ohne manuellen Aufwand einen Text und dessen Meta-Information wie Textgröße, Font und Position.

Diese Informationen machen ein Bild nun durchsuchbar und bearbeitbar. Aber für eine Automatisierung benötigt man die semantische Bedeutung des Texts. Die OCR und die automatisierte Texterkennung sind somit Grundsteine für die Automatisierung Ihrer Prozesse. Die Zeichen, Wörter und Zahlen sowie deren Meta-Informationen bilden eine wichtige Datenquelle für darauf aufbauende Algorithmen und KI-Modelle, welche dem Buchstabensalat eine Semantik zuweisen.

Unsere BLU DELTA KI Rechnungserfassung nutzt die Ergebnisse der OCR, um daraus automatisiert und ohne weiteren manuellen Aufwand wertvolle Informationen für die Folgeprozesse (z.B. Kreditorenbuchhaltung) zu extrahieren. Der Kunde erhält so nicht nur Zeichenketten, Wörter und Zahlen, sondern auch deren Bedeutung.

Wie bereits erwähnt, bestimmt die OCR Software die Wahrscheinlichkeit, wie sehr ein Zeichen einer bestimmten Zahl entspricht. Diese Wahrscheinlichkeit variiert mit der Bildqualität. Unscharfe Bilder, farblich hinterlegter Text oder einfach schlecht gescannte Dokumente können die Qualität stark beeinflussen. Wir sehen in unseren regelmäßigen BLU DELTA Benchmarks (Qualitätsmessung bei KI), dass die Foto- und Scanqualität für die nachfolgenden Prozesse entscheidend ist.

Eine „8“ wird schnell zu einer „6“ oder zu einem „B“. Ein „gekippter“ Buchstabe hat bei uns jedoch keine Auswirkungen auf die Automatisierung. Moderne NLP (Natural Language Processing) Ansätze, wie wir sie auch bei BLU DELTA verwenden, reduzieren solche Einzelfehler.

Bis zu 30% höhere Automatisierungsrate

Hervorgerufen durch schlechte Scan- und Bildqualität sehen wir bei unseren Kunden Differenzen von bis zu 30% bei den Automatisierungsraten in der Dokumentenerfassung. Man unterscheidet bei der Eingangsqualität zwischen Digitalfoto, Scan und PDF-Text. Diese Unterschiede sind auch ein Grund, warum wir bei BLU DELTA für die Rechnungserfassung eine Vorhersage der Automatisierungsrate anbieten.

Digitalfoto und OCR

In der Regel weisen Bilder, die mit mobilen Endgeräten aufgenommen wurden, folgende Probleme auf:

  • Schatten
  • Ungleichmäßige Ausleuchtung
  • Falsche Perspektive
  • Zusätzliche Bereiche außerhalb der Seitengrenzen

Eine OCR Software kann diese Probleme bis zu einem bestimmten Grad korrigieren. Trotzdem bilden Digitalfotos durch die oben genannten Punkte die größte Herausforderung für die Automatisierung. Sogenannte CamScanner oder ähnliche mobile OCR Scanner und/oder Bild Optimierungen können hier die Qualität vorab entsprechend verbessern.

Scan und OCR

Professionelle Scanner bieten bereits eine gute Basis für die automatisierte Verarbeitung und Erfassung von Dokumenten. Wenn möglich, dann scannen Sie Ihre Dokumente in Schwarz/Weiß (somit ist eine verlustfreie Komprimierung möglich) und mit mind. 300dpi.  Kleine Schriften bis zu 9pt können so noch gut erkannt werden.

PDF-Text und OCR

PDF-Text liefert die besten Ergebnisse. Hier entfällt meist der eigentliche OCR Prozess. Das PDF-Dokumente enthält bereits die Zeichen in digitaler Form und der Folgeprozess muss „nur“ noch die Semantik erkennen. Dokumente im reinen PDF-Text Format erreichen  bei der BLU DELTA KI Gesamterkennungsraten von mehr als 90%. Wenn möglich sollten Sie daher bei Ihren Dokumentquellen darauf achten, dass Sie unstrukturierte oder semistrukturierte Dokumente als PDF-Text erhalten.

Allerdings sind auch PDF-Text Dokumente oftmals mit Bildern angereichert, in denen Text Informationen enthalten sind. Somit relativiert sich in diesem Fall der Vorteil.

OCR in der Buchhaltung

Speziell im Bereich (Kreditoren-)Buchhaltung wird der Begriff OCR oftmals mit der Erfassung von Informationen von Rechnungen gleichgesetzt. Technisch gesehen ist dies jedoch ein getrennter Prozess. Die BLU DELTA KI enthält eine Komponente für die Texterkennung (OCR) und darauf aufbauend KI-Modelle, die die semantischen Zusammenhänge erfassen.

Gerne können sie unsere BLU DELTA Rechnungserfassung als API oder SDK kostenlos testen.    

BLU DELTA ist ein Produkt für die automatisierte Erfassung von Finanzdokumenten. Partner, aber auch Finanzabteilungen, Kreditorenbuchhalter und Steuerberater unserer Kunden können mit BLU DELTA ihre Mitarbeiter bei der zeitaufwendigen und meist manuellen Erfassung von Dokumenten durch den Einsatz von BLU DELTA KI und Cloud unmittelbar entlasten.

BLU DELTA ist ein Produkt der Blumatix Intelligence GmbH, welche Unternehmen im Bereich Künstliche Intelligenz und Softwareentwicklung berät und unterstützt.