LayoutXLM: Multimodales Vortrainieren für die Verarbeitung mehrsprachiger, visuell reichhaltiger Dokumente

Die multimodale Vortrainung mit Text, Layout und Bild hat kürzlich für Aufgaben der Verarbeitung von visuell reichhaltigen Dokumenten die beste bisher bekannte (SOTA) Leistung erzielt, was das große Potenzial für das gemeinsame Lernen über verschiedene Modalitäten hinweg zeigt. In dieser Arbeit stellen wir LayoutXLM vor, ein multimodales vortrainiertes Modell für die Verarbeitung multilingualer Dokumente, das darauf abzielt, die sprachlichen Barrieren bei der Verarbeitung visuell reichhaltiger Dokumente zu überwinden. Um LayoutXLM präzise zu evaluieren, führen wir auch einen multilingualen Benchmark-Datensatz für Formularverarbeitung ein, den XFUND, der Formularverarbeitungsbeispiele in 7 Sprachen (Chinesisch, Japanisch, Spanisch, Französisch, Italienisch, Deutsch, Portugiesisch) enthält und für jede Sprache manuell Schlüssel-Wert-Paare beschriftet sind. Die Experimentsergebnisse zeigen, dass das LayoutXLM-Modell die bestehenden SOTA-Kreuzsprachenvortrainingsmodelle im XFUND-Datensatz deutlich übertroffen hat. Das vortrainierte LayoutXLM-Modell und der XFUND-Datensatz sind öffentlich verfügbar unter https://aka.ms/layoutxlm.