Große Sprachmodelle (LLM): Vor- und Nachteile bei der Dokumentenerfassung

Dokumentenerfassung – die ideale Aufgabe für ChatGPT oder andere vortrainierte LLMs?

Dokumentenerfassung bezieht sich auf den Prozess, unstrukturierte Daten in ein normiertes, strukturiertes Format umzuwandeln. Im Wesentlichen entspricht dies einer Zusammenfassung eines Dokuments mit den essenziellen Informationen in einem vordefinierten strukturierten und einheitlichen Format.

Dokumentenerfassung mit ChatGPT

Auf den ersten Blick scheint dies eine ideale Aufgabe für ein Sprachmodell wie ChatGPT oder andere vortrainierte LLMs zu sein. (Für einen umfassenden Überblick über LLMs, einschließlich Details über Inferenz, Training, Anwendungen und Herausforderungen kann folgendes Research Paper hilfreich sein).

Sie - lieber Leser -  haben vielleicht ChatGPT oder Llama, Falcon, etc. bereits für die Zusammenfassung eines Dokuments genutzt. Aber kann diese auch in einen Backoffice Prozess in einem Unternehmen integriert werden? Insbesondere in Bereichen, in denen konsistente und vertrauenswürdige Resultate von größter Bedeutung sind?

Betrachten wir den Einsatz von LLMs für die Dokumentenerfassung in Backoffice-Prozessen genauer und suchen nach Wegen, ihre Zuverlässigkeit sicherzustellen.

LLMs sind für menschenähnliche Texte konzipiert

LLMs sind darauf ausgelegt, menschenähnliche Spracheingaben zu verstehen und menschenähnliche Textausgaben zu produzieren. Für die Dokumentenerfassung bedeutet dies, dass wir vor dem Einsatz von LLMs unsere Bilder oder PDF-ähnlichen Dateien in Text umwandeln müssen. Das sogenannte OCR und die damit verbundene Fehlerquelle bei schlechter Bild- oder Dokumentqualität bleibt uns also nicht erspart.

Wie steht es um das Layout?

Menschen kommunizieren Informationen nicht nur durch Prosa. Wir verwenden Absätze, Tabellen, Ausrichtungen und mehr, um Informationen effizient zu vermitteln. Das Layout ist damit ein Träger von Bedeutung. LLMs können keine 2-dimensionalen Informationen verarbeiten. Sie prozessieren reinen Text, Zeile für Zeile. Implizite Information geht verloren, wenn man nur Prosa verwendet. Es benötigt semantisch zusammengehörende Textblöcke. Idealerweise sollten wir den Inhalt vorbereiten und in semantische Blöcke oder Bereiche segmentieren, um dem LLM einen interpretierbaren Text bereitzustellen.

Größe zählt

LLMs haben Beschränkungen hinsichtlich der Größe von Eingabe- und Ausgabetext. Aktuelle L