HyperAI
vor 19 Stunden

MoCa: Modality-bewusstes kontinuierliches Vortraining verbessert bidirektionale multimodale Einbettungen

Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou
MoCa: Modality-bewusstes kontinuierliches Vortraining verbessert bidirektionale multimodale Einbettungen
Abstract

Multimodale Einbettungsmodelle, die auf kausalen Vision-Language-Modellen (VLMs) basieren, haben in verschiedenen Aufgaben vielversprechende Ergebnisse gezeigt. Dennoch stoßen aktuelle Ansätze auf drei wesentliche Einschränkungen: Die Verwendung von kausaler Aufmerksamkeit in den Backbones der VLMs ist für Einbettungsaufgaben suboptimal; Skalierungsprobleme infolge der Abhängigkeit von hochwertigen, annotierten gepaarten Daten für kontrastives Lernen; und eine begrenzte Vielfalt in den Trainingszielen und -daten. Um diese Probleme zu lösen, schlagen wir MoCa vor, einen zweistufigen Rahmen zur Transformation vortrainierter VLMs in effektive bidirektionale multimodale Einbettungsmodelle. In der ersten Stufe, der modalspezifischen kontinuierlichen Vorabtrainingsphase (Modality-aware Continual Pre-training), wird ein gemeinsames Rekonstruktionsziel eingeführt, das gleichzeitig verrauschte Text- und Bild-Eingaben entrauscht und so das bidirektionale kontextbezogene Schließen verbessert. In der zweiten Stufe, dem heterogenen kontrastiven Feinjustierungsprozess (Heterogeneous Contrastive Fine-tuning), werden vielfältige, semantisch reiche multimodale Daten über einfache Bild-Beschreibungspaare hinaus genutzt, um die Generalisierungsfähigkeit und Ausrichtung zu erhöhen. Unsere Methode behebt die genannten Einschränkungen durch Einführung von bidirektionaler Aufmerksamkeit im kontinuierlichen Vorabtraining, effektive Skalierung mit massiven unannotierten Datensätzen durch gemeinsame Rekonstruktionsziele und Nutzung vielfältiger multimodaler Daten zur Verbesserung der Darstellungstabilität. Experimente zeigen, dass MoCa die Leistung bei den Benchmarks MMEB und ViDoRe-v2 stetig verbessert und neue Standarts erreicht. Zudem zeigt sich eine starke Skalierbarkeit sowohl in Bezug auf die Modellgröße als auch auf die Trainingsdaten beim MMEB-Benchmark.