22. Mai 2025

Wie BLU DELTA moderne KI-Technologie mit OCR und internen Datenquellen kombiniert.

In der sich rasant entwickelnden Welt der Künstlichen Intelligenz (KI) entstehen nahezu täglich neue Ansätze, die Unternehmen einen echten Mehrwert bieten. Eine der derzeit vielversprechendsten Technologien: Retrieval-Augmented Generation (RAG). Bei BLU DELTA beschäftigen wir uns intensiv mit RAG – und erklären hier, warum diese Methode besonders in Verbindung mit interner Dokumentenverarbeitung und OCR so relevant ist. 

Retrieval Augmented Generation Schema
Kontaktieren Sie uns!
Martin Loiperdinger

Fragen, Wünsche, Anmerkungen?
Wir geben gerne Auskunft!

oder

Was ist Retrieval-Augmented Generation (RAG)? 

RAG kombiniert ein sogenanntes Large Language Model (LLM) – wie GPT – mit einer externen Wissensquelle. Anders als herkömmliche Sprachmodelle, die ausschließlich auf ihr Trainingswissen zurückgreifen, kann RAG zusätzlichen Kontext dynamisch einbeziehen, etwa aus internen Dokumenten oder aktuellen Informationen.

Das Herzstück dabei ist die semantische Suche in einer vektorbasierten Datenbank: Die passende Antwort entsteht auf Basis von sowohl der Benutzerfrage als auch den dazu passenden Inhalten aus der eigenen Wissensbasis. 

Warum reichen klassische LLMs nicht aus? 

LLMs beeindrucken durch ihre Fähigkeit, natürlichsprachliche Texte zu verstehen und zu generieren – sind aber im Alltag oft unzureichend: 

  • Kein Zugriff auf aktuelle oder interne Daten
  • Eingeschränkter Kontextumfang – längere Inhalte oder komplexe Sachverhalte gehen verloren
  • Keine Quellenangaben, was Vertrauen und Nachvollziehbarkeit erschwert
  • Halluzinationen – das Modell „erfindet" unter Umständen Fakten, wenn es keine passenden Informationen hat 

Für Unternehmen, die z. B. automatisiert auf Rechnungen, Verträge oder Richtlinien zugreifen wollen, ist das ein Problem. Hier kommt RAG ins Spiel – idealerweise in Verbindung mit OCR-Technologien, die Dokumente wie PDFs oder eingescannte Belege durchsuchbar machen. 

 

Wie funktioniert RAG in der Praxis?

RAG gliedert sich in drei zentrale Schritte:

  1. Indexierung: Eigene Dokumente – ob digital oder per OCR extrahiert – werden in kleine, strukturierte Einheiten zerteilt („Chunking") und in eine Vektordatenbank übertragen.
  2. Retrieval: Wird eine Frage gestellt, durchsucht ein semantischer Algorithmus diese Datenbank und identifiziert relevante Textstücke.
  3. Generation: Das LLM erhält Frage und Textausschnitte als Kontext und generiert daraus eine präzise Antwort – mit Quellenverweis

So können z. B. Fragen zu internen Informationen, Richtlinien oder konkreten Vertragsinhalten direkt und transparent beantwortet werden. 

RAG-Prozessdiagramm

Vorteile und Potenziale von RAG

Die Vorteile von RAG sind dementsprechend vielfältig:

  • Aktualität: Neue Daten können direkt ergänzt werden, ohne das Modell neu trainieren zu müssen
  • Transparenz: Jede Antwort enthält einen Quellenverweis
  • Datensicherheit: Unternehmenswissen bleibt intern, das LLM greift nur auf dafür vorbereitete Kontexte zu
  • Skalierbarkeit: Schnelle Integration in bestehende Workflows – z. B. über den MCP Server
  • OCR-Kombination: Auch physische oder gescannte Dokumente werden durch Texterkennung Teil der KI-Auswertung

RAG kombiniert die Stärken von LLMs mit dem Wissen des Unternehmens. 

Herausforderungen? Natürlich – aber lösbar 

RAG ist kein Selbstläufer. Die Qualität hängt z. B. von einer durchdachten Chunking-Strategie oder einem präzisen Retriever ab. Auch die Evaluierung der generierten Antworten erfordert Sorgfalt, besonders in sensiblen Anwendungsfeldern, wenn man genauer überprüfen möchte, ob wirklich auf Basis aller zur Anfrage passenden Quellen geantwortet wurde.

Doch gerade hier zeigt sich unser Know-how bei BLU DELTA: Wir arbeiten an Systemen, die diese Feinheiten beherrschen – praxisnah, skalierbar und transparent. 

Warum BLU DELTA auf RAG setzt 

Wir setzen bei BLU DELTA auf Technologien, die nicht nur beeindrucken – sondern echten Nutzen bringen. RAG ist für uns ein Schlüsselkonzept, um KI-Lösungen präziser, transparenter und sicherer zu machen.

In Kombination mit unserer Erfahrung in der OCR-Datenextraktion und Prozessautomatisierung ergibt sich ein enormer Mehrwert: Intelligente Systeme, die auf Ihr konkretes Wissen zugreifen – egal ob digital, gescannt oder automatisch indexiert. 

Noch ein Meta-Hinweis … 

Dieser Blogartikel ist im Grunde selbst ein Beispiel für RAG:

Informationen aus einer zuvor erstellten, internen Powerpoint-Präsentation wurden „retrieved", durch Kontext „augmented" und zu einem verständlichen Text „generated".

Der Unterschied? Diesmal wurde der Prozess noch manuell von einem Menschen umgesetzt, indem das Dokument direkt in den LLM-Chat eingefügt wurde. Diesen Ablauf auf Ihren Dokumenten, Daten und OCR-Inhalten künftig teil- oder vollautomatisiert direkt nutzbar zu machen, ist unser Ziel! 

 

Sie möchten mehr über RAG erfahren? 

Sie überlegen, wie Sie RAG und OCR in Ihrem Unternehmen einsetzen können – z. B. zur Analyse von Rechnungen, Verträgen oder Richtlinien?

Dann sprechen Sie mit uns! Unser Team von BLU DELTA berät Sie gerne! 

BLU DELTA ist ein Produkt für die automatisierte Erfassung von Finanzdokumenten. Partner, aber auch Finanzabteilungen, Kreditorenbuchhalter und Steuerberater unserer Kunden können mit BLU DELTA ihre Mitarbeiter bei der zeitaufwendigen und meist manuellen Erfassung von Dokumenten durch den Einsatz von BLU DELTA KI und Cloud unmittelbar entlasten.

BLU DELTA ist eine Künstliche Intelligenz der Blumatix Intelligence GmbH.

Martin Loiperdinger

Autor: Martin Loiperdinger ist Co-Founder und CEO der Blumatix Intelligence GmbH. Zuvor war er in einem international agierenden Konzern für die Entwicklung von Kopierschutzlösungen verantwortlich und später als selbständiger Berater für mittelständische Unternehmen und Konzerne tätig. Seit 2016 treibt er die KI-gestützte Dokumentenverarbeitung voran und macht Blumatix zu einem der innovativsten Anbieter im DACH-Raum. Sein Ziel: der mühelose Informationsaustausch zwischen Unternehmen.
Kontakt: m.loiperdinger@blumatix.at