HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP: Verbesserte Trainingsmethoden für CLIP im großen Maßstab

Quan Sun¹ Yuxin Fang¹,² Ledell Wu¹ Xinlong Wang¹ Yue Cao¹

Zusammenfassung

Das contrastive Sprach-Bild-Vortraining, kurz CLIP, hat aufgrund seines Potenzials in verschiedenen Szenarien zunehmend an Bedeutung gewonnen. In dieser Arbeit schlagen wir EVA-CLIP vor, eine Reihe von Modellen, die die Effizienz und Wirksamkeit des CLIP-Trainings erheblich verbessern. Unser Ansatz integriert neue Techniken für das Darstellungslernen, die Optimierung und die Data-Augmentation, wodurch EVA-CLIP im Vergleich zu früheren CLIP-Modellen mit der gleichen Anzahl von Parametern, aber bei deutlich geringeren Trainingskosten, überlegene Leistungen erzielt. Bemerkenswerterweise erreicht unser größtes Modell EVA-02-CLIP-E/14+ mit nur 9 Milliarden betrachteten Stichproben eine Zero-Shot Top-1-Akkuranz von 82,0 % auf ImageNet-1K val. Ein kleineres Modell, EVA-02-CLIP-L/14+, mit nur 430 Millionen Parametern und 6 Milliarden betrachteten Stichproben erreicht eine Zero-Shot Top-1-Akkuranz von 80,4 % auf ImageNet-1K val. Um offenen Zugang und offene Forschung zu fördern, veröffentlichen wir das vollständige Ensemble von EVA-CLIP für die Gemeinschaft unter https://github.com/baaivision/EVA/tree/master/EVA-CLIP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp