HyperAIHyperAI
vor 2 Monaten

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung

SR, Nikitha ; Menta, Tarun Ram ; Sarkar, Mausoom
DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung
Abstract

Die Einführung des multimodalen Lernens hat einen bedeutenden Fortschritt im Bereich der Dokumenten-KI gebracht. Dokumente werden nun als multimodale Entitäten betrachtet, die sowohl textuelle als auch visuelle Informationen für nachgelagerte Analysen integrieren. Allerdings konzentrieren sich die Arbeiten in diesem Bereich oft auf den textuellen Aspekt und nutzen den visuellen Raum lediglich als Hilfsinformation. Obwohl einige Studien reine visionbasierte Techniken zur Verarbeitung von Dokumentenbildern untersucht haben, erfordern sie während der Inferenz OCR-identifiziertes Textmaterial als Eingabe oder sind in ihrem Lernprozess nicht mit dem Text ausgerichtet. Daher präsentieren wir eine neuartige Bild-Text-Ausrichtungstechnik, die speziell darauf ausgelegt ist, die textuellen Informationen in Dokumentenbildern zu nutzen, um die Leistung bei visuellen Aufgaben zu verbessern. Unser Dokumentencodierungsmodell DoPTA – trainiert mit dieser Technik – zeigt starke Ergebnisse bei einer Vielzahl von Aufgaben zur Verarbeitung von Dokumentenbildern, ohne dass OCR während der Inferenz erforderlich ist. In Kombination mit einem zusätzlichen Rekonstruktionsziel übertreffen DoPTA konsistent größere Modelle, wobei es deutlich weniger Vortrainingsrechenleistung verwendet. DoPTA stellt zudem neue Stand-of-the-Art-Ergebnisse bei D4LA und FUNSD, zwei anspruchsvollen Benchmarks für die visuelle Analyse von Dokumenten, auf.请注意,"Stand-of-the-Art" 在德语中通常写作 "State-of-the-Art",但为了保持一致性,这里使用了 "Stand-of-the-Art"。如果需要更正,请告知。

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung | Neueste Forschungsarbeiten | HyperAI