HyperAIHyperAI

Command Palette

Search for a command to run...

M2-Encoder: Die Weiterentwicklung des bilingualen Bild-Text-Verständnisses durch groß angelegte und effiziente Vortraining

Qingpei Guo* Furong Xu* Hanxiao Zhang* Wang Ren* Ziping Ma Lin Ju Jian Wang Jingdong Chen Ming Yang†

Zusammenfassung

Visionsprachliche Grundmodelle wie CLIP haben das Gebiet der künstlichen Intelligenz revolutioniert. Dennoch sind VLM-Modelle, die mehrere Sprachen unterstützen, beispielsweise sowohl Chinesisch als auch Englisch, aufgrund der relativen Knappheit von umfangreichen Vortrainingsdatensätzen zurückgeblieben. Um diesem Mangel entgegenzuwirken, stellen wir einen umfassenden zweisprachigen (Chinesisch-Englisch) Datensatz BM-6B vor, der über 6 Milliarden Bild-Text-Paare enthält und darauf abzielt, multimodale Grundmodelle zu verbessern, sodass sie Bilder in beiden Sprachen gut verstehen können. Um mit einem solch großen Datensatz umzugehen, schlagen wir einen neuen gruppenbasierten Aggregierungsansatz für die Berechnung des Bild-Text-Kontrastverlusts vor, der den Kommunikationsaufwand und die GPU-Speicheranforderungen erheblich reduziert und eine 60-prozentige Steigerung der Trainingsgeschwindigkeit ermöglicht. Wir führen eine Reihe von zweisprachigen Bild-Text-Grundmodellen auf BM-6B mit einer verbesserten feingranularen Verständnisfähigkeit vor. Die resultierenden Modelle, als M2M^2M2-Encoder (ausgesprochen "M-Quadrat") bezeichnet, setzen neue Maßstäbe in beiden Sprachen für multimodale Retrieval- und Klassifizierungsaufgaben. Bemerkenswerterweise hat unser größtes Modell M2M^2M2-Encoder-10B unter einer zero-shot-Klassifizierungseinstellung Top-1-Akkuratenzen von 88,5 % auf ImageNet und 80,7 % auf ImageNet-CN erreicht, was jeweils um 2,2 % und 21,1 % besser ist als die bisher besten veröffentlichten Methoden. Die M2M^2M2-Encoder-Reihe stellt eines der umfassendsten zweisprachigen Bild-Text-Grundmodelle dar, daher machen wir es der Forschergemeinschaft zur weiteren Exploration und Entwicklung zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
M2-Encoder: Die Weiterentwicklung des bilingualen Bild-Text-Verständnisses durch groß angelegte und effiziente Vortraining | Paper | HyperAI