HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP-18B: Skalierung von CLIP auf 18 Milliarden Parameter

Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang

Zusammenfassung

Das Skalieren von kontrastiver Sprach- und Bildvorbildung (CLIP) ist entscheidend für die Stärkung sowohl von visuellen als auch von multimodalen Modellen. Wir stellen EVA-CLIP-18B vor, das größte und leistungsfähigste offene CLIP-Modell bislang, mit 18 Milliarden Parametern. Nachdem es nur 6 Milliarden Trainingsbeispiele gesehen hat, erreicht EVA-CLIP-18B eine außergewöhnliche durchschnittliche Zero-Shot Top-1 Genauigkeit von 80,7 % über 27 weit anerkannten Bildklassifikationsbenchmarks. Dies übertreffen seine Vorgängerin EVA-CLIP (5 Milliarden Parameter) und andere offene CLIP-Modelle deutlich. Bemerkenswerterweise beobachten wir bei der Skalierung des Modellumfangs von EVA-CLIP eine konsistente Leistungsverbesserung, obwohl ein konstanter Trainingsdatensatz von 2 Milliarden Bild-Text-Paaren aus LAION-2B und COYO-700M verwendet wird. Dieser Datensatz ist öffentlich verfügbar und viel kleiner als die internen Datensätze (z.B. DFN-5B, WebLI-10B), die in anderen Cutting-edge CLIP-Modellen eingesetzt werden. EVA-CLIP-18B zeigt das Potenzial der EVA-artigen Skalierung schwacher zu starker visueller Modelle auf. Durch die öffentliche Veröffentlichung unserer Modellgewichte hoffen wir, zukünftige Forschungen in visuellen und multimodalen Grundmodellen zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EVA-CLIP-18B: Skalierung von CLIP auf 18 Milliarden Parameter | Paper | HyperAI