XDoc: Einheitliches Vortraining für die Verständnis von Dokumenten in verschiedenen Formaten

Der Aufschwung des Vortrainings hat kürzlich eine rasante Entwicklung im Bereich der Dokumentverarbeitung erlebt. Das Framework aus Vortraining und Feinabstimmung wurde erfolgreich eingesetzt, um Texte in verschiedenen Formaten zu bearbeiten, darunter reine Texte, Dokumenttexte und Webtexte. Trotz vielversprechender Ergebnisse sind bestehende vortrainierte Modelle in der Regel auf ein spezifisches Dokumentformat ausgerichtet, was es schwierig macht, Wissen aus mehreren Formaten zu kombinieren. Um dies zu beheben, schlagen wir XDoc vor, ein vereintes vortrainiertes Modell, das verschiedene Dokumentformate in einem einzigen Modell verarbeitet. Für eine effiziente Parameteranwendung teilen wir die Backbone-Parameter für verschiedene Formate wie die Wort-Einbettungsschicht (word embedding layer) und die Transformer-Schichten. Gleichzeitig führen wir anpassbare Schichten mit leichtgewichtigen Parametern ein, um die Unterschiede zwischen den verschiedenen Formaten zu verbessern. Experimentelle Ergebnisse haben gezeigt, dass XDoc mit nur 36,7 % der Parameter vergleichbare oder sogar bessere Leistungen bei einer Vielzahl von Downstream-Aufgaben erzielt als einzelne vortrainierte Modelle, was für die praktische Anwendung kosteneffektiv ist. Der Code und die vortrainierten Modelle werden öffentlich zur Verfügung gestellt unter \url{https://aka.ms/xdoc}.