M2-Encoder: Die Weiterentwicklung des bilingualen Bild-Text-Verständnisses durch groß angelegte und effiziente Vortraining

Visionsprachliche Grundmodelle wie CLIP haben das Gebiet der künstlichen Intelligenz revolutioniert. Dennoch sind VLM-Modelle, die mehrere Sprachen unterstützen, beispielsweise sowohl Chinesisch als auch Englisch, aufgrund der relativen Knappheit von umfangreichen Vortrainingsdatensätzen zurückgeblieben. Um diesem Mangel entgegenzuwirken, stellen wir einen umfassenden zweisprachigen (Chinesisch-Englisch) Datensatz BM-6B vor, der über 6 Milliarden Bild-Text-Paare enthält und darauf abzielt, multimodale Grundmodelle zu verbessern, sodass sie Bilder in beiden Sprachen gut verstehen können. Um mit einem solch großen Datensatz umzugehen, schlagen wir einen neuen gruppenbasierten Aggregierungsansatz für die Berechnung des Bild-Text-Kontrastverlusts vor, der den Kommunikationsaufwand und die GPU-Speicheranforderungen erheblich reduziert und eine 60-prozentige Steigerung der Trainingsgeschwindigkeit ermöglicht. Wir führen eine Reihe von zweisprachigen Bild-Text-Grundmodellen auf BM-6B mit einer verbesserten feingranularen Verständnisfähigkeit vor. Die resultierenden Modelle, als $M^2$-Encoder (ausgesprochen "M-Quadrat") bezeichnet, setzen neue Maßstäbe in beiden Sprachen für multimodale Retrieval- und Klassifizierungsaufgaben. Bemerkenswerterweise hat unser größtes Modell $M^2$-Encoder-10B unter einer zero-shot-Klassifizierungseinstellung Top-1-Akkuratenzen von 88,5 % auf ImageNet und 80,7 % auf ImageNet-CN erreicht, was jeweils um 2,2 % und 21,1 % besser ist als die bisher besten veröffentlichten Methoden. Die $M^2$-Encoder-Reihe stellt eines der umfassendsten zweisprachigen Bild-Text-Grundmodelle dar, daher machen wir es der Forschergemeinschaft zur weiteren Exploration und Entwicklung zur Verfügung.