Command Palette
Search for a command to run...
MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings
Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

Abstract
Basis-Modellarchitekturen aus Bild- und Textdaten, wie beispielsweise CLIP mit Zero-Shot-Fähigkeiten, ermöglichen eine breite Palette an Anwendungen. MobileCLIP ist eine neuere Familie von Bild-Text-Modellen mit einer Latenz von 3–15 ms und 50–150 M Parametern, die eine state-of-the-art Zero-Shot-Genauigkeit erreicht. Die zentralen Bestandteile von MobileCLIP waren seine geringe Latenz und leichtgewichtigen Architekturen sowie ein neuartiges multimodales verstärktes Training, das die Wissens-Distillation aus mehreren Caption-Generatoren und CLIP-Teacher-Modellen effizient, skalierbar und reproduzierbar machte. In diesem Paper verbessern wir das multimodale verstärkte Training von MobileCLIP durch: 1) verbesserte CLIP-Teacher-Ensembles, die auf dem DFN-Datensatz trainiert wurden, und 2) optimierte Captioner-Teacher, die ebenfalls auf dem DFN-Datensatz trainiert und anschließend an einer vielfältigen Auswahl hochwertiger Bild-Caption-Datensätze feinabgestimmt wurden. Durch Ablationen gewinnen wir neue Erkenntnisse, beispielsweise die Bedeutung der Temperaturanpassung bei der kontrastiven Wissens-Distillation, die Wirksamkeit der Feinabstimmung von Caption-Generatoren zur Steigerung der Caption-Vielfalt sowie die additive Verbesserung durch die Kombination synthetischer Captions, die von mehreren Modellen generiert wurden. Wir trainieren eine neue Modellfamilie namens MobileCLIP2 und erreichen dabei state-of-the-art-Genauigkeiten auf ImageNet-1k im Zero-Shot-Setting bei niedriger Latenz. Insbesondere beobachten wir eine Verbesserung der ImageNet-1k-Genauigkeit um 2,2 % für MobileCLIP2-B im Vergleich zur MobileCLIP-B-Architektur. Bemerkenswert ist, dass MobileCLIP2-S4 die Zero-Shot-Genauigkeit von SigLIP-SO400M/14 auf ImageNet-1k erreicht, dabei aber die Größe um das Zweifache reduziert und bei 2,5-fach niedrigerer Latenz die Leistung von DFN ViT-L/14 übertrifft. Wir veröffentlichen unsere vortrainierten Modelle (dieser https-URL) sowie den Code zur Datengenerierung (diese https-URL). Der Datengenerierungs-Code ermöglicht es, mit verteilten, skalierbaren Prozessen problemlos neue verstärkte Datensätze mit beliebigen Teacher-Modellen zu erstellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.