Datenerfassung automatisieren mit KI: „same same but different“

Bei semistrukturierten Informationen und Dokumenten (wie z.B. Lieferscheine, Bestellungen, Rechnungen, Ausfuhrbegleitdokumente, Schadensfall Dokumentation, Gutachten, etc.) gilt die alte Weisheit: „same same but different“.

Dies bedeutet, dass man bei der Datenerfassung mit hoher Wahrscheinlichkeit die gleichen Informationen auf allen Dokumenten findet, aber in unterschiedlicher Form, Position und Semantik. Im schlechtesten Fall sind die Informationen sogar nur indirekt vorhanden. Diese Identifikation von konkreten Informationen auf beliebig formatierten Dokumenten benötigt Intelligenz. Weitere Informationen zur Automatisierung mit KI finden Sie hier:  Rechnungserfassung: Vorteile bei der Automatisierung mit KI.

WICHTIG: Wir sprechen hier nicht von einfachen Formularen, welche die Position der Information vorgibt. Bei solchen Problemen gibt es einfachere Lösungen, um Daten zu extrahieren.

Datenerfassung

Kann Künstliche Intelligenz die Datenerfassung übernehmen?

Künstliche Intelligenz ist prinzipiell dafür prädestiniert, semi-strukturierte Informationen von Dokumenten zu erfassen, wenn die Dokumente eine gewisse „Ähnlichkeit“ haben. Sogar Einzelpositionen (Line Items) auf diesen Dokumenten lassen sich extrahieren. Man kann sogenannte singuläre Intelligenzen für eine bestimmte Aufgabe mittels Datenbeispielen trainieren – unter bestimmten Voraussetzungen:

Historische Datenerfassung vorhanden

Die wichtigste Frage: Gibt es Datenbeispiele (meist historische Daten)? Also sind korrekte Beispiele vorhanden, von denen die KI die gewünschte Erfassung lernen kann? Auch die Performance der KI muss mit unabhängigen Daten gemessen werden. In der Regel hängt dies stark davon ab, ob diese Daten in der Vergangenheit bereits manuell erfasst wurden oder ob die Erfassung eine neue Anwendung darstellt. Sind keine Daten vorhanden, so kann man diese Beispiele manuell erstellen oder künstlich generieren.

Intelligente Erfassung benötigt Kontext

Singuläre Intelligenzen – also eine Intelligenz, die eine Aufgabe gut kann – arbeitet in einem Kontext-Sandkasten. Z.B. bei der Erfassung einer Bestellung benötigt Sie den Kontext der Industrie (spezielle Fachbegriffe) und des Unternehmens (Begriffe im Unternehmen, Produktkatalog, Lieferanten). Zugriff auf diesen Kontext erhöht die Trefferquote und Performance.

Was ist meine Fehlertoleranz?

Eine Künstliche Intelligenz gibt neben einem erkannten Wert auch die Wahrscheinlichkeit zurück, wie sicher Sie sich ist, dass der Wert korrekt erfasst wurde. Ab einem bestimmten Wahrscheinlichkeitsschwellwert nimmt man an, dass der Wert korrekt ist. Dieser Schwellwert kann nun auch zur Optimierung der Resultate verwendet werden. Reduziere ich den Schwellwert, so reduziere ich den