EVA-CLIP-18B: Skalierung von CLIP auf 18 Milliarden Parameter

Das Skalieren von kontrastiver Sprach- und Bildvorbildung (CLIP) ist entscheidend für die Stärkung sowohl von visuellen als auch von multimodalen Modellen. Wir stellen EVA-CLIP-18B vor, das größte und leistungsfähigste offene CLIP-Modell bislang, mit 18 Milliarden Parametern. Nachdem es nur 6 Milliarden Trainingsbeispiele gesehen hat, erreicht EVA-CLIP-18B eine außergewöhnliche durchschnittliche Zero-Shot Top-1 Genauigkeit von 80,7 % über 27 weit anerkannten Bildklassifikationsbenchmarks. Dies übertreffen seine Vorgängerin EVA-CLIP (5 Milliarden Parameter) und andere offene CLIP-Modelle deutlich. Bemerkenswerterweise beobachten wir bei der Skalierung des Modellumfangs von EVA-CLIP eine konsistente Leistungsverbesserung, obwohl ein konstanter Trainingsdatensatz von 2 Milliarden Bild-Text-Paaren aus LAION-2B und COYO-700M verwendet wird. Dieser Datensatz ist öffentlich verfügbar und viel kleiner als die internen Datensätze (z.B. DFN-5B, WebLI-10B), die in anderen Cutting-edge CLIP-Modellen eingesetzt werden. EVA-CLIP-18B zeigt das Potenzial der EVA-artigen Skalierung schwacher zu starker visueller Modelle auf. Durch die öffentliche Veröffentlichung unserer Modellgewichte hoffen wir, zukünftige Forschungen in visuellen und multimodalen Grundmodellen zu fördern.