HyperAIHyperAI
vor 11 Tagen

VLMo: Einheitliche Vision-Sprache-Vortrainierung mit Mixture-of-Modality-Experts

Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei
VLMo: Einheitliche Vision-Sprache-Vortrainierung mit Mixture-of-Modality-Experts
Abstract

Wir präsentieren ein einheitliches vision-sprachliches vortrainiertes Modell (VLMo), das gemeinsam einen Dual-Encoder und einen Fusion-Encoder mit einem modularen Transformer-Netzwerk lernt. Konkret führen wir den Mixture-of-Modality-Experts (MoME)-Transformer ein, bei dem jeder Block einen Pool modality-spezifischer Experten sowie eine gemeinsame Selbst-Attention-Schicht enthält. Aufgrund der modellbasierten Flexibilität von MoME kann das vortrainierte VLMo entweder als Fusion-Encoder für vision-sprachliche Klassifikationsaufgaben feinabgestimmt werden oder als Dual-Encoder für eine effiziente Bild-Text-Abfrage genutzt werden. Darüber hinaus schlagen wir eine stufenweise Vortrainierungsstrategie vor, die große Mengen an ausschließlich bildbasierten und ausschließlich textbasierten Daten neben Bild-Text-Paaren effektiv nutzt. Experimentelle Ergebnisse zeigen, dass VLMo state-of-the-art-Ergebnisse bei verschiedenen vision-sprachlichen Aufgaben erzielt, darunter VQA, NLVR2 und Bild-Text-Abfrage. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/vlmo verfügbar.

VLMo: Einheitliche Vision-Sprache-Vortrainierung mit Mixture-of-Modality-Experts | Neueste Forschungsarbeiten | HyperAI