LayoutLMv3: Vorbereitung für Document AI mit vereinten Text- und Bildmaskierungen

Selbstüberwachte Vortrainingsmethoden haben in der Dokument-KI erstaunliche Fortschritte gemacht. Die meisten multimodalen Vortrainingssmodelle verwenden ein maskiertes Sprachmodell (masked language modeling) als Ziel, um bidirektionale Repräsentationen im Textmodus zu lernen, aber sie unterscheiden sich in den Vortrainingsszielen für den Bildmodus. Diese Diskrepanz erschwert das Lernen von multimodalen Repräsentationen. In dieser Arbeit schlagen wir \textbf{LayoutLMv3} vor, um multimodale Transformer für die Dokument-KI mit vereintem Text- und Bildmaskieren zu vortrainieren. Zudem wird LayoutLMv3 mit einem Wort-Patch-Ausrichtungsziel vortrainiert, um durch die Vorhersage, ob das entsprechende Bildpatch eines Textworts maskiert ist, die Ausrichtung über Modalitäten hinweg zu lernen. Die einfache vereinte Architektur und Trainingsziele machen LayoutLMv3 zu einem allgemeinen Vortrainingssmodell sowohl für textzentrierte als auch für bildzentrierte Dokument-KI-Aufgaben. Experimentelle Ergebnisse zeigen, dass LayoutLMv3 nicht nur in textzentrierten Aufgaben wie Formularverstehen, Quittungsverstehen und visuelle Fragebeantwortung in Dokumenten, sondern auch in bildzentrierten Aufgaben wie Klassifikation von Dokumentbildern und Analyse von Dokumentlayouts den aktuellen Stand der Technik erreicht. Der Code und die Modelle sind öffentlich verfügbar unter \url{https://aka.ms/layoutlmv3}.