HyperAIHyperAI

Command Palette

Search for a command to run...

XDoc: Einheitliches Vortraining für die Verständnis von Dokumenten in verschiedenen Formaten

Jingye Chen Tengchao Lv Lei Cui Cha Zhang Furu Wei

Zusammenfassung

Der Aufschwung des Vortrainings hat kürzlich eine rasante Entwicklung im Bereich der Dokumentverarbeitung erlebt. Das Framework aus Vortraining und Feinabstimmung wurde erfolgreich eingesetzt, um Texte in verschiedenen Formaten zu bearbeiten, darunter reine Texte, Dokumenttexte und Webtexte. Trotz vielversprechender Ergebnisse sind bestehende vortrainierte Modelle in der Regel auf ein spezifisches Dokumentformat ausgerichtet, was es schwierig macht, Wissen aus mehreren Formaten zu kombinieren. Um dies zu beheben, schlagen wir XDoc vor, ein vereintes vortrainiertes Modell, das verschiedene Dokumentformate in einem einzigen Modell verarbeitet. Für eine effiziente Parameteranwendung teilen wir die Backbone-Parameter für verschiedene Formate wie die Wort-Einbettungsschicht (word embedding layer) und die Transformer-Schichten. Gleichzeitig führen wir anpassbare Schichten mit leichtgewichtigen Parametern ein, um die Unterschiede zwischen den verschiedenen Formaten zu verbessern. Experimentelle Ergebnisse haben gezeigt, dass XDoc mit nur 36,7 % der Parameter vergleichbare oder sogar bessere Leistungen bei einer Vielzahl von Downstream-Aufgaben erzielt als einzelne vortrainierte Modelle, was für die praktische Anwendung kosteneffektiv ist. Der Code und die vortrainierten Modelle werden öffentlich zur Verfügung gestellt unter \url{https://aka.ms/xdoc}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
XDoc: Einheitliches Vortraining für die Verständnis von Dokumenten in verschiedenen Formaten | Paper | HyperAI