Command Palette
Search for a command to run...
EVA-CLIP: Verbesserte Trainingsmethoden für CLIP im großen Maßstab
EVA-CLIP: Verbesserte Trainingsmethoden für CLIP im großen Maßstab
Quan Sun¹ Yuxin Fang¹,² Ledell Wu¹ Xinlong Wang¹ Yue Cao¹
Zusammenfassung
Das contrastive Sprach-Bild-Vortraining, kurz CLIP, hat aufgrund seines Potenzials in verschiedenen Szenarien zunehmend an Bedeutung gewonnen. In dieser Arbeit schlagen wir EVA-CLIP vor, eine Reihe von Modellen, die die Effizienz und Wirksamkeit des CLIP-Trainings erheblich verbessern. Unser Ansatz integriert neue Techniken für das Darstellungslernen, die Optimierung und die Data-Augmentation, wodurch EVA-CLIP im Vergleich zu früheren CLIP-Modellen mit der gleichen Anzahl von Parametern, aber bei deutlich geringeren Trainingskosten, überlegene Leistungen erzielt. Bemerkenswerterweise erreicht unser größtes Modell EVA-02-CLIP-E/14+ mit nur 9 Milliarden betrachteten Stichproben eine Zero-Shot Top-1-Akkuranz von 82,0 % auf ImageNet-1K val. Ein kleineres Modell, EVA-02-CLIP-L/14+, mit nur 430 Millionen Parametern und 6 Milliarden betrachteten Stichproben erreicht eine Zero-Shot Top-1-Akkuranz von 80,4 % auf ImageNet-1K val. Um offenen Zugang und offene Forschung zu fördern, veröffentlichen wir das vollständige Ensemble von EVA-CLIP für die Gemeinschaft unter https://github.com/baaivision/EVA/tree/master/EVA-CLIP.