vor 8 Monaten

Zusammenfassung

Die Einführung des multimodalen Lernens hat einen bedeutenden Fortschritt im Bereich der Dokumenten-KI gebracht. Dokumente werden nun als multimodale Entitäten betrachtet, die sowohl textuelle als auch visuelle Informationen für nachgelagerte Analysen integrieren. Allerdings konzentrieren sich die Arbeiten in diesem Bereich oft auf den textuellen Aspekt und nutzen den visuellen Raum lediglich als Hilfsinformation. Obwohl einige Studien reine visionbasierte Techniken zur Verarbeitung von Dokumentenbildern untersucht haben, erfordern sie während der Inferenz OCR-identifiziertes Textmaterial als Eingabe oder sind in ihrem Lernprozess nicht mit dem Text ausgerichtet. Daher präsentieren wir eine neuartige Bild-Text-Ausrichtungstechnik, die speziell darauf ausgelegt ist, die textuellen Informationen in Dokumentenbildern zu nutzen, um die Leistung bei visuellen Aufgaben zu verbessern. Unser Dokumentencodierungsmodell DoPTA – trainiert mit dieser Technik – zeigt starke Ergebnisse bei einer Vielzahl von Aufgaben zur Verarbeitung von Dokumentenbildern, ohne dass OCR während der Inferenz erforderlich ist. In Kombination mit einem zusätzlichen Rekonstruktionsziel übertreffen DoPTA konsistent größere Modelle, wobei es deutlich weniger Vortrainingsrechenleistung verwendet. DoPTA stellt zudem neue Stand-of-the-Art-Ergebnisse bei D4LA und FUNSD, zwei anspruchsvollen Benchmarks für die visuelle Analyse von Dokumenten, auf.请注意，"Stand-of-the-Art" 在德语中通常写作 "State-of-the-Art"，但为了保持一致性，这里使用了 "Stand-of-the-Art"。如果需要更正，请告知。

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung | Paper | HyperAI

Command Palette

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DoPTA: Verbesserung der Dokumentenlayoutanalyse durch Patch-Text-Ausrichtung

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters