HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Entwicklung allgemeiner Grundmodelle für Sprach-, Visuellen- und visuolinguistische Verständnisaufgaben

Xinsong Zhang Yan Zeng Jipeng Zhang Hang Li

Zusammenfassung

Grundmodellen oder vortrainierte Modelle haben die Leistungsfähigkeit verschiedener Aufgaben im Bereich Sprache, Vision und visuelle Sprachverstehens erheblich verbessert. Allerdings können bestehende Grundmodelle derzeit nur bei einer einzigen Aufgabenspezialisierung – nämlich Sprache, Vision oder visuelle Sprache – die bestmögliche Leistung erzielen. Es bleibt weiterhin eine offene Frage, ob es möglich ist, ein Grundmodell zu konstruieren, das bei allen Verstehensaufgaben optimal abschneidet, das wir ein allgemeines Grundmodell nennen. In diesem Artikel stellen wir ein neues allgemeines Grundmodell, X-FM (das X-Grundmodell), vor. X-FM verfügt über einen Sprachencoder, einen Visionencoder sowie einen Fusionsencoder sowie eine neuartige Trainingsmethode. Diese Methode umfasst zwei neue Techniken, um X-FM aus Text-, Bild- und Bild-Text-Paardaten zu trainieren. Erstens wird der Gradientenfluss aus dem visuell-sprachlichen Training bei der Ausbildung des Sprachencoders unterbrochen. Zweitens wird das visuell-sprachliche Training genutzt, um die Ausbildung des Visionencoders zu leiten. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass X-FM bestehende allgemeine Grundmodelle erheblich übertrifft und gleichzeitig die Leistung von spezialisierteren Grundmodellen für Sprache, Vision oder visuelle Sprache erreicht oder sogar übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/zhangxinsong-nlp/XFM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp