HyperAIHyperAI

Command Palette

Search for a command to run...

VLMo: Einheitliche Vision-Sprache-Vortrainierung mit Mixture-of-Modality-Experts

Hangbo Bao Wenhui Wang Li Dong Qiang Liu Owais Khan Mohammed Kriti Aggarwal Subhojit Som Furu Wei

Zusammenfassung

Wir präsentieren ein einheitliches vision-sprachliches vortrainiertes Modell (VLMo), das gemeinsam einen Dual-Encoder und einen Fusion-Encoder mit einem modularen Transformer-Netzwerk lernt. Konkret führen wir den Mixture-of-Modality-Experts (MoME)-Transformer ein, bei dem jeder Block einen Pool modality-spezifischer Experten sowie eine gemeinsame Selbst-Attention-Schicht enthält. Aufgrund der modellbasierten Flexibilität von MoME kann das vortrainierte VLMo entweder als Fusion-Encoder für vision-sprachliche Klassifikationsaufgaben feinabgestimmt werden oder als Dual-Encoder für eine effiziente Bild-Text-Abfrage genutzt werden. Darüber hinaus schlagen wir eine stufenweise Vortrainierungsstrategie vor, die große Mengen an ausschließlich bildbasierten und ausschließlich textbasierten Daten neben Bild-Text-Paaren effektiv nutzt. Experimentelle Ergebnisse zeigen, dass VLMo state-of-the-art-Ergebnisse bei verschiedenen vision-sprachlichen Aufgaben erzielt, darunter VQA, NLVR2 und Bild-Text-Abfrage. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/vlmo verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp