OCR und DeepOCR Texterkennung im Vergleich

2. August 2022

In der IT-Küche brodelt der KI-Eintopf – neben Computer Vision vor allem auch im Bereich OCR Texterkennung. Viele etablierte Softwareunternehmen kämpfen damit, ihre veraltete Software zumindest in Marketing-Broschüren auf neueste KI Standards zu heben. Klassische Software-Algorithmen wurden bis 2015 und teilweise noch bis heute mit wenig Fortschritt im Bereich Texterkennung optimiert und ausgereizt. Seit ca. 2015 öffnet hier KI neue Möglichkeiten, die aktuell am Markt auch schon an vielen Stellen genutzt werden.  Speziell unter dem Begriff DeepOCR tummeln sich neue Produkte am Markt, die eine neue Qualität versprechen und die zum Teil sogar als Open Source verfügbar sind.

WICHTIG: Hier geht es um die reine Texterkennung auf Zeichen und evtl. Wortebene. Der Begriff wird aus finanztechnischer Sicht aufgrund der Historie etwas ausgereizt und firmiert fälschlicher Weise auch oftmals unter Beleg- oder Rechnungserfassung. Um hier Klarheit zu schaffen, haben wir zu dem Thema OCR, iOCR und KI einen eigenen Artikel verfasst.

Als Anbieter einer iOCR (BLU DELTA KI) müssen wir den OCR Markt im Auge behalten und möchten hiermit unsere Ergebnisse zur Verfügung stellen.

OCR Texterkennung

Ziel des Tests der OCR Texterkennung

Aus diesem Grund haben wir im Mai 2022 eine kleine aber feine Auswahl an OCR Texterkennungen miteinander verglichen. Das Ziel war dabei eine Indikation zu bekommen, ob sich am Markt im Bereich Deep Learning aus qualitativer Seite etwas bewegt. Dabei wurde ein Benchmark von Ziffern und Zahlen angelegt. 89 Zahlen bestehend aus 570 Zeichen im Benchmark wurden dabei als Ground Truth verwendet.

Hinweis: Zahlen wurden verwendet, da man diese im Folgeprozess eines iOCR nicht oder nur selten korrigieren kann. Kippt evtl. der eine oder andere Buchstabe bei der Erkennung, so kann man über „Ähnlichkeiten“ wieder auf das korrekte Wort Rückschlüsse ziehen (z.B. auch über NLP Modelle), was bei Zahlen nicht möglich ist.

Die Messung (Benchmark Setup)

Im Benchmark vertreten waren ca. 66% Zahlen aus Dokumenten mit guter und ca. 33% mit schlechter Bildqualität. Alle Daten stammten von Original-Rechnungen und Kassenbelegen wie sie am Markt immer wieder vorkommen. Es war kein rein zufällig gezogenes Sample sondern hatte im Vergleich zu üblichen Rechnungen und Kassabelegen einen Bias in Richtung schlechter Bildqualität. Die Produkte wurden off-the-shelf getestet und es wurde kein Training vorgenommen.

Die Messungen der OCR Texterkennung erfolgte über 2 Indikatoren:

  • Exact Match: Die Zahl muss exakt mit der Ground Truth übereinstimmen.
  • Levenshtein Distance: Wie ähnlich sind sich die erkannten Werte; dient als Messung für Qualität der einzelnen Zeichen

Wir möchten darauf hinweisen, dass es viele Kriterien gibt, die eine OCR Beurteilung begründen. In unserem Fall war es ausschließlich die Erkennungsrate bei Zahlen bzw. Ziffern.

Die Ergebnisse:

OCR Texterkennung

Exakt

Levenshtein

Google OCR

92%

95,70%

Paddle OCR V2.5

64%

92,26%

AbbyyFineReader15

71%

86,47%

Omnipage Ultimate V19.2

62%

82%

Tesseract 5 OCR

57%

73%

OCR.space

50%

74%

Onlineocr.net 

42%

69%

Unser Fazit zur OCR Texterkennung

Dass Google in den letzten Jahren durch neueste KI-Architekturen zum qualitativen Marktführer in der OCR Texterkennung aufgestiegen ist, ist kein Geheimnis. Aber für den Use Case Geschäftsdokumente und Scan scheint ein echter Open Source Herausforderer aus Asien zu entstehen - PaddleOCR.  Auffällig ist, dass beide (Google und Paddle) DeepLearning (DeepOCR) einsetzen und bei schlechter Bildqualität augenscheinlich viel besser waren als die Konkurrenz. Google als auch Paddle dürften durch DeepLearning und Daten hier in sehr kurzer Zeit viel erreicht haben. PaddleOCR kann man dazu auch noch mit eigenen Daten trainieren und entsprechend verbessern. Es ist anzunehmen, dass PaddleOCR mit Training eine ähnliche Performance wie Google erreichen kann.

Weitere Anmerkungen zum Test:

  • MMOCR wäre ebenfalls ein Open Source Kandidat gewesen, jedoch konnte hier unser Format nicht gelesen werden.
  • PaddleOCR hatte einen Bug, den wir vorher korrigiert haben, bevor wir die Ergebnisse nutzen konnten (1 Leerzeichen nach jedem Komma).

Die OCR Texterkennung hat im Bereich intelligentes OCR durch NLP etwas an Bedeutung verloren, stellt aber die Basis für jede KI zur Erkennung der Semantik im Folgeprozess dar. Eine nachgeschaltete KI-Architektur nutzt dabei die erkannten Zeichen, um diese auf Wörter, Sätze und Bedeutung abzubilden. Ein transparentes Feedback aus der Oberfläche des Kunden zurück zum KI-System führt dabei zu einem bleibenden Lerneffekt (siehe auch BLU DELTA Shared Intelligence Konzept).

Wir planen in den nächsten Wochen einen reinen DeepOCR Benchmark zwischen den Open Source Deep OCR Anbietern: MM OCR, Paddle OCR und Easy OCR. Einfach Newsletter abonnieren und nichts versäumen 😊!

BLU DELTA ist ein Produkt für die automatisierte Erfassung von Finanzdokumenten. Partner, aber auch Finanzabteilungen, Kreditorenbuchhalter und Steuerberater unserer Kunden können mit BLU DELTA ihre Mitarbeiter bei der zeitaufwendigen und meist manuellen Erfassung von Dokumenten durch den Einsatz von BLU DELTA KI und Cloud unmittelbar entlasten.

BLU DELTA ist ein Produkt der Blumatix Intelligence GmbH, welche Unternehmen im Bereich Künstliche Intelligenz und Softwareentwicklung berät und unterstützt.