Neueste KI erfasst Einzelpositionen (Line Items) einer Rechnung besser

Mittlerweile ist es unumstritten, dass Künstliche Intelligenz mit der richtigen Architektur und den passenden daten-getriebenen Ansätzen einen Quantensprung in der Qualität der Dokumentenerfassung bringt. Richtig angewandt gilt das auch für Einzelpositionen. Aber warum kann nicht jede KI Einzelpositionen gleich gut erfassen?

Rechnung mit Tabelle

Ist eine Einzelpositionstabelle eine Tabelle?

Zeilen, Spalten und die daraus resultierenden Zellen sollten bei Tabellen semantische Zusammenhänge verdeutlichen (siehe auch Tabellen Definition).

Aus gesetzlicher Sicht haben Rechnungen keine Pflichtfelder für Einzelpositionen und konkrete Definitionen für Einzelpositionen gibt es dort nicht. Damit bleibt den Autor*innen eine große lyrische und gestalterische Freiheit, die oftmals ohne Rücksicht auf die Lesegewohnheiten der Empfänger*innen bzw. deren Systeme voll ausgeschöpft wird.

Weitere Informationen zu Einzelpositionen und Texterkennung gibt es übrigens auch in diesem Blogbeitrag: Rechnungserkennung: Einzelposten erfassen mit OCR

Table

Womit wir beim größten Problem bei der Erfassung von Einzelpositionen angekommen sind. Man spricht von Tabellen oder im Denglischen auch oft von Line Item Tables, obwohl es gar keine Tabellen im herkömmlichen Sinne sind.

Auswendig Lernen vs. Verstehen bei Einzelpositionen

Altbackene, „smarte“ Systeme (also Systeme mit einem Ursprung vor 2015) haben es hier schwer. Diese Rechnungserfassungssysteme nutzen einen sogenannten Template Ansatz. Im Prinzip lernen sie auswendig (mit einer gewissen Toleranz), wo Merkmale der einzelnen Positionen auf einer bestimmten Rechnung eines Lieferanten stehen. Während dies für Kopfdaten von Rechnungen und Dokumenten noch funktionieren kann, sind diese Systeme spätestens bei komplexeren Einzelpositionen überfordert. Die Struktur von Einzelpositionen ist komplexer und weniger starr, verglichen mit der von Kopfdaten. Man muss hier die Strukturen und semantische Zusammenhänge besser verstehen.

Die richtige KI-Architektur versteht Rechnungen und Dokumente

2020 hat die KI im Bereich Dokumentenerfassung wieder einen weiteren Schub erfahren. NLP und Deep Learning Ansätze aus dem Computer Vision Bereich wurden miteinander kombiniert und so wurden für den Menschen erkennbare, semantische Zusammenhänge für die KI erlernbar gemacht. Basierend auf diesen Forschungsergebnissen konnte man nun die Architekturen weiter optimieren und neue KI-Modelle erstellen, welche „unscharfe“ Tabellen besser erkennen. Weiters wurde der „datengetriebene“ Ansatz forciert. Also die Verbesserung der Modelle durch gezielte und kontinuierliche Verbesserung der Trainingsdatensätze.

Trainingsdaten für Einzelpositionen: Henne oder Ei?

Eine KI lernt basierend auf Daten. D.h. im einfachsten Fall werden Beispieldaten als Input mit der zugehörigen Lösung (dem gewünschten Output) der KI zum „Üben“ bereitgestellt. Dies ist natürlich “einfach”, wenn es historische Beispieldaten gibt. Also Unternehmen, die in der Vergangenheit Einzelpositionen in Massen manuell erfasst haben. Da dies aber sehr aufwändig ist, haben die meisten Unternehmen diese entweder gar nicht oder nur die unbedingt notwendigen Felder erfasst. Daher sind die für generalisierte Modelle und Deep Learning notwendigen Massendaten am Markt sehr eingeschränkt verfügbar.

Trainingsdaten und zugehöriger Trainingswert

Trainingsdaten (bzw. in unserem Fall Dokumente/Rechnungen mit den gewünschten, zugehörigen Erfassungsdaten) stellen aus der Sicht des KI Trainings einen Trainingswert dar (Wieviel kann das System von diesem Dokument lernen?).

Dabei unterscheiden wir zwischen extrinsischen und intrinsischen Trainingswerten. Ein höherer extrinsischer Trainingswert hilft z.B. dabei, das von außen vorgegebene, reale Problem besser zu erlernen.  Ein Beispiel wäre hier ein bisher komplett unbekanntes Dokumentenlayout, das am Markt oder für die Kund*innen hohe Relevanz hat.

Ein intrinsischer Trainingswert kommt aus den Schwächen eines Modells und ist eng mit “Active Learning” verknüpft. Vereinfacht bedeutet dies, dass das Modell bestimmte Situationen noch nicht gut unterscheiden kann und mit den richtigen Beispielen hier mehr “Know-how” aufbaut.

Synthetische Einzelpositionen basierend auf realen Dokumenten

Und genau hier kommt der Erzeugung von synthetischen Daten eine Schlüsselrolle zu. Synthetische Daten haben keine Einschränkung hinsichtlich Quantität, jedoch muss der extrinsische und intrinsische Trainingswert hoch sein. Bei BLU DELTA generieren wir Einzelpositionen, welche den realen Situationen entsprechen und das Modell dabei optimiert lernt. Somit erreichen wir sowohl bei speziellen Branchenanforderungen sowie auch für unser generalisiertes KI-Modell für die Einzelpositionserfassung wesentliche höhere Erkennungsraten als bei traditionellen Systemen.

Wenn Sie mehr über die Verarbeitung von Einzelpositionen oder die Verbesserung derer Erkennung erfahren möchten, kontaktieren Sie uns. Wir freuen uns über jeden Austausch.

BLU DELTA ist ein Produkt für die automatisierte Erfassung von Finanzdokumenten. Partner, aber auch Finanzabteilungen, Kreditorenbuchhalter und Steuerberater unserer Kunden können mit BLU DELTA ihre Mitarbeiter bei der zeitaufwendigen und meist manuellen Erfassung von Dokumenten durch den Einsatz von BLU DELTA KI und Cloud unmittelbar entlasten.

BLU DELTA ist eine Künstliche Intelligenz der Blumatix Intelligence GmbH.