HyperAIHyperAI
vor 17 Tagen

MegaPairs: Massive Data Synthesis für universelles Multimodal Retrieval

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
MegaPairs: Massive Data Synthesis für universelles Multimodal Retrieval
Abstract

Trotz der rasant wachsenden Nachfrage nach multimodaler Retrieval-Technologie bleibt der Fortschritt in diesem Bereich erheblich durch den Mangel an Trainingsdaten eingeschränkt. In diesem Paper stellen wir MegaPairs vor, eine neuartige Daten-Synthesemethode, die visuelle Sprachmodelle (VLMs) und offene Bildkorpora nutzt, zusammen mit einem umfangreichen synthetischen Datensatz, der auf dieser Methode basiert. Unsere empirische Analyse zeigt, dass MegaPairs hochwertige Daten erzeugt, wodurch der multimodale Retriever erheblich besser abschneidet als ein Basismodell, das auf 70-mal mehr Daten aus bestehenden Datensätzen trainiert wurde. Darüber hinaus beruht MegaPairs ausschließlich auf allgemeinen Bildkorpora und quelloffenen VLMs, was eine einfache Skalierbarkeit ermöglicht und kontinuierliche Verbesserungen der Retrieval-Leistung erlaubt. In dieser Phase haben wir mehr als 26 Millionen Trainingsinstanzen erzeugt und mehrere Modelle unterschiedlicher Größe mit diesem Datensatz trainiert. Diese neuen Modelle erreichen state-of-the-art-Leistungen im Zero-Shot-Modus auf vier gängigen Benchmarks für zusammengesetzte Bildretrieval (CIR) sowie die höchste Gesamtleistung auf den 36 Datensätzen des MMEB. Zudem zeigen sie signifikante Leistungsverbesserungen bei zusätzlicher Fine-Tuning im Nachgang. Der von uns erstellte Datensatz, die gut trainierten Modelle sowie die Daten-Synthesepipeline werden öffentlich zugänglich gemacht, um die zukünftige Entwicklung dieses Forschungsfelds zu unterstützen.