vor 16 Tagen

Zur Entwicklung allgemeiner Grundmodelle für Sprach-, Visuellen- und visuolinguistische Verständnisaufgaben

Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li

Abstract

Grundmodellen oder vortrainierte Modelle haben die Leistungsfähigkeit verschiedener Aufgaben im Bereich Sprache, Vision und visuelle Sprachverstehens erheblich verbessert. Allerdings können bestehende Grundmodelle derzeit nur bei einer einzigen Aufgabenspezialisierung – nämlich Sprache, Vision oder visuelle Sprache – die bestmögliche Leistung erzielen. Es bleibt weiterhin eine offene Frage, ob es möglich ist, ein Grundmodell zu konstruieren, das bei allen Verstehensaufgaben optimal abschneidet, das wir ein allgemeines Grundmodell nennen. In diesem Artikel stellen wir ein neues allgemeines Grundmodell, X-FM (das X-Grundmodell), vor. X-FM verfügt über einen Sprachencoder, einen Visionencoder sowie einen Fusionsencoder sowie eine neuartige Trainingsmethode. Diese Methode umfasst zwei neue Techniken, um X-FM aus Text-, Bild- und Bild-Text-Paardaten zu trainieren. Erstens wird der Gradientenfluss aus dem visuell-sprachlichen Training bei der Ausbildung des Sprachencoders unterbrochen. Zweitens wird das visuell-sprachliche Training genutzt, um die Ausbildung des Visionencoders zu leiten. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass X-FM bestehende allgemeine Grundmodelle erheblich übertrifft und gleichzeitig die Leistung von spezialisierteren Grundmodellen für Sprache, Vision oder visuelle Sprache erreicht oder sogar übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/zhangxinsong-nlp/XFM verfügbar.