Wir schreiben Programme, die komplexe Probleme in Data Science, Numerik & Physik  lösen.

Extraktion von Informationen aus Fließtexten

Strukturierte Daten aus PDFs zuverlässig gewinnen

Unternehmen erhalten täglich große Mengen an Dokumenten – Rechnungen, Mahnungen, Verträge oder Bescheinigungen.
Obwohl viele dieser Dokumente digital vorliegen oder per OCR erfasst wurden, bleiben sie zunächst unstrukturierter Fließtext.
Erst durch gezielte Verarbeitung werden daraus maschinenlesbare Informationen.


1. PDF Klassifikation – Dokumente automatisch erkennen

Der erste Schritt ist die PDF Klassifikation.
Ein eingehendes Dokument wird einer fachlichen Kategorie zugeordnet, zum Beispiel:

  • Rechnung
  • Mahnung
  • SEPA-Mandat
  • individueller Dokumenttyp

Technische Grundlage

Damit ein Modell mit Text arbeiten kann, wird Fließtext in eine numerische Repräsentation (Vektor) umgewandelt. Typische Verfahren:

  • Tokenisierung (Zerlegung in Wortbestandteile)
  • Wörterbuchbasierte Encodings
  • N-Grams zur Berücksichtigung von Wortkombinationen
  • Einbeziehung von Layout-Merkmalen

Das Modell gibt neben der Kategorie immer eine Konfidenz aus.
Diese Sicherheitsschätzung steuert die weitere Verarbeitung.


2. PDF Werte Extraktion – Struktur aus Text gewinnen

Nach erfolgreicher Dokument Kategorisierung folgt die PDF Werte Extraktion.

Am Beispiel einer Rechnung können relevante Felder sein:

  • IBAN
  • Rechnungsdatum
  • Lieferdatum
  • Zahlungsziel
  • Betrag

Vorgehensweise

  1. Identifikation potenzieller Kandidaten (z. B. per Mustererkennung für Datumsformate)
  2. Bewertung jedes Treffers anhand von: Position auf dem Dokument, Nachbarwörtern („Rechnungsdatum:“), Formatierung
  3. Klassifikation als relevantes Feld oder nicht

Auch hier wird jedem extrahierten Wert eine Konfidenz zugeordnet.
Bei niedriger Sicherheit oder Widersprüchen erfolgt eine manuelle Prüfung.


3. Mensch-in-der-Schleife

Ein vollständig automatisiertes System benötigt gezielte Rückkopplung.

  • Unsichere Felder werden markiert
  • Vorschläge sind bereits vorbelegt
  • Mitarbeitende prüfen nur relevante Stellen
  • Monotone Tätigkeiten entfallen

Dieses Feedback verbessert kontinuierlich die Modelle.


4. Machine Learning Monitoring Feedback

Produktive Systeme müssen überwacht werden.

Zwei zentrale Risiken:

  1. Modelländerung (z. B. neues Modell ersetzt altes)
  2. Datenverschiebung (neue Dokumenttypen, neue Formate)

Zur Kontrolle werden Modell und Daten systematisch verglichen: Neu vs. alt.
Abweichungen zeigen, ob ein Modellproblem oder ein Datenproblem vorliegt.


Fazit

Effiziente Informationsextraktion aus Fließtext erfordert:

  • zuverlässige PDF Klassifikation
  • präzise PDF Werte Extraktion
  • saubere Dokument Kategorisierung
  • strukturiertes Machine Learning Monitoring Feedback