Die AI-SDV ist der Treffpunkt für alle, die sich mit fortschrittlichen Such- und Datenanwendungen, Text Mining und Visualisierungstechnologien beschäftigen. Die AI-SDV 2022 fand am 10. und 11. Oktober 2022 in Wien (Österreich) statt.

Karakun-Experte Dr. Holger Keibel hielt einen Vortrag über Informationsextraktion aus tabellarischen Dokumenten.

Abstract & Folien

In unseren Kundenprojekten zur automatisierten Dokumentenverarbeitung stossen wir häufig auf Dokumenttypen, die wichtige Daten in Form von Tabellen enthalten. Während etablierte Textanalyse-Algorithmen in der Regel für die Verarbeitung von Fliesstext optimiert sind, liefern sie bei Tabellen eher schlechte Ergebnisse, da sie die nicht-sequenziellen Beziehungen innerhalb von Tabellen nicht erfassen (z.B. Interpretation des Inhalts einer Tabellenzelle relativ zu ihrem Spaltentitel, Interpretation von Zeilenumbrüchen innerhalb einer Zelle anders als Zeilenumbrüche zwischen Zellen oder Zeilen).

Zwar gibt es auf dem Markt ausgefeilte Produkte zur Informationsextraktion für einige sehr spezifische Arten von Tabellendokumenten, aber es gibt keinen allgemeingültigen Ansatz. Die Hauptursache dafür ist die Tatsache, dass Tabellenstrukturen durch eine heterogene Palette von Layout-Mitteln kodiert werden können (z.B. können Spaltengrenzen durch Linien vs. ausgerichteten Text vs. Leerraum signalisiert werden).

In diesem Vortrag werden wir mehrere Lösungen vorstellen, die wir für eine Reihe von Herausforderungen entwickelt haben, die in diesem Zusammenhang auftreten, sowohl für gescannte als auch für digital erzeugte Dokumente.

Möchten Sie mehr darüber erfahren, wie Sprachanalyse und Informationsextraktion Ihr Unternehmen voranbringen können?

Kontakt aufnehmen