HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutXLM: Multimodales Vortrainieren für die Verarbeitung mehrsprachiger, visuell reichhaltiger Dokumente

Yiheng Xu Tengchao Lv Lei Cui Guoxin Wang Yijuan Lu Dinei Florencio Cha Zhang Furu Wei

Zusammenfassung

Die multimodale Vortrainung mit Text, Layout und Bild hat kürzlich für Aufgaben der Verarbeitung von visuell reichhaltigen Dokumenten die beste bisher bekannte (SOTA) Leistung erzielt, was das große Potenzial für das gemeinsame Lernen über verschiedene Modalitäten hinweg zeigt. In dieser Arbeit stellen wir LayoutXLM vor, ein multimodales vortrainiertes Modell für die Verarbeitung multilingualer Dokumente, das darauf abzielt, die sprachlichen Barrieren bei der Verarbeitung visuell reichhaltiger Dokumente zu überwinden. Um LayoutXLM präzise zu evaluieren, führen wir auch einen multilingualen Benchmark-Datensatz für Formularverarbeitung ein, den XFUND, der Formularverarbeitungsbeispiele in 7 Sprachen (Chinesisch, Japanisch, Spanisch, Französisch, Italienisch, Deutsch, Portugiesisch) enthält und für jede Sprache manuell Schlüssel-Wert-Paare beschriftet sind. Die Experimentsergebnisse zeigen, dass das LayoutXLM-Modell die bestehenden SOTA-Kreuzsprachenvortrainingsmodelle im XFUND-Datensatz deutlich übertroffen hat. Das vortrainierte LayoutXLM-Modell und der XFUND-Datensatz sind öffentlich verfügbar unter https://aka.ms/layoutxlm.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LayoutXLM: Multimodales Vortrainieren für die Verarbeitung mehrsprachiger, visuell reichhaltiger Dokumente | Paper | HyperAI