Lektion 3 von 5·10 Min Lesezeit

Dokumentenverarbeitung / OCR

Unternehmen verarbeiten täglich hunderte Dokumente: Rechnungen, Verträge, Bestellungen, Formulare, Lieferscheine. 80 % davon sind unstrukturiert — PDF, Scan, Foto, E-Mail. Intelligent Document Processing (IDP) macht diese Daten maschinenlesbar.

Von OCR zu IDP

Die Evolution

  1. OCR (1990er): Text aus Bildern extrahieren — Buchstabe für Buchstabe
  2. Template OCR (2000er): Feste Koordinaten für bekannte Layouts
  3. ML-based OCR (2010er): Erkennung beliebiger Layouts mit Machine Learning
  4. IDP (2020er): Versteht Kontext, Bedeutung und Beziehungen zwischen Feldern

Wie IDP funktioniert

Moderne IDP-Systeme kombinieren mehrere AI-Technologien:

  1. Document Classification: Um welchen Dokumenttyp handelt es sich? (Rechnung, Vertrag, Ausweis)
  2. Layout Analysis: Wo sind Tabellen, Header, Footer, Logos, Stempel?
  3. Text Extraction: OCR mit Kontextverständnis (nicht nur Zeichen, sondern Wörter und Sätze)
  4. Entity Extraction: Relevante Felder extrahieren (Rechnungsnummer, Betrag, Datum, IBAN)
  5. Validation: Extrahierte Daten gegen Regeln prüfen (IBAN-Format, Plausibilität)
  6. Learning: Korrekturen durch Nutzer verbessern das Modell kontinuierlich

Rechnungen, Verträge, Formulare

Rechnungsverarbeitung

Der häufigste IDP-Use-Case. Extrahierte Felder:

  • Lieferant, Rechnungsnummer, Datum, Fälligkeitsdatum
  • Einzelpositionen (Beschreibung, Menge, Einzelpreis, Gesamtpreis)
  • Nettobetrag, MwSt.-Satz, MwSt.-Betrag, Bruttobetrag
  • IBAN, BIC, Zahlungsreferenz
  • USt-IdNr., Bestellnummer

Genauigkeit 2026: 95–98 % für strukturierte Rechnungen, 88–94 % für unstrukturierte.

Vertragsanalyse

AI extrahiert aus Verträgen:

  • Parteien: Wer sind die Vertragspartner?
  • Laufzeit: Beginn, Ende, Kündigungsfristen
  • Finanzen: Vergütung, Zahlungsbedingungen, Preisanpassungsklauseln
  • Klauseln: Haftung, Gerichtsstand, Force Majeure, Datenschutz
  • Risiken: Ungewöhnliche Klauseln, fehlende Standardklauseln

Tools: Kira Systems, Luminance, ContractPodAi — oder Custom mit LLM + Document AI.

Formulare

Strukturierte Formulare (Anträge, Fragebögen, Checklisten):

  • Checkbox-Erkennung: Angekreuzt oder nicht?
  • Handschrift-Erkennung: Ausgefüllte Textfelder lesen
  • Unterschriften-Erkennung: Ist unterschrieben? Von wem? (nicht Verifikation)
  • Stempel-Erkennung: Amtliche Stempel identifizieren

IDP-Plattformen 2026

PlattformStärkePreis
ABBYY VantageBranchenführer, viele KonnektorenEnterprise
RossumBeste UX, schnelles OnboardingMid-Market
Google Document AISkalierbar, gute APIPay-per-Use
Azure AI Document IntelligenceMicrosoft-IntegrationPay-per-Use
KlippaDSGVO-konform, EU-hostedMid-Market
Open Source (Donut, LayoutLM)Volle KontrolleNur Infrastruktur

Implementierungs-Guide

Phase 1: Pilot (4–6 Wochen)

  1. Dokumenttyp wählen: Starten Sie mit dem häufigsten (meist Eingangsrechnungen)
  2. 50–100 Beispieldokumente sammeln und manuell labeln
  3. Modell trainieren oder Cloud-API konfigurieren
  4. Human-in-the-Loop: Jede Extraktion wird manuell geprüft und korrigiert

Phase 2: Optimierung (4–8 Wochen)

  1. Genauigkeit messen: Feld-für-Feld-Accuracy tracken
  2. Schwachstellen beheben: Mehr Training für Problemfelder
  3. Automatisierungsgrad erhöhen: Konfidenz-Schwelle definieren (z. B. > 95 % → auto-accept)

Phase 3: Skalierung

  1. Weitere Dokumenttypen hinzufügen
  2. ERP-Integration: Extrahierte Daten automatisch in SAP, DATEV, etc. buchen
  3. Monitoring: Dashboard für Verarbeitungsvolumen, Genauigkeit und Ausnahmen

Erfahrungswert: Der größte Aufwand liegt nicht in der Technik, sondern im Change Management. Mitarbeiter müssen verstehen, dass IDP ihre Arbeit erleichtert, nicht ersetzt.