vor 2 Monaten

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

Abstract

Basis-Modellarchitekturen aus Bild- und Textdaten, wie beispielsweise CLIP mit Zero-Shot-Fähigkeiten, ermöglichen eine breite Palette an Anwendungen. MobileCLIP ist eine neuere Familie von Bild-Text-Modellen mit einer Latenz von 3–15 ms und 50–150 M Parametern, die eine state-of-the-art Zero-Shot-Genauigkeit erreicht. Die zentralen Bestandteile von MobileCLIP waren seine geringe Latenz und leichtgewichtigen Architekturen sowie ein neuartiges multimodales verstärktes Training, das die Wissens-Distillation aus mehreren Caption-Generatoren und CLIP-Teacher-Modellen effizient, skalierbar und reproduzierbar machte. In diesem Paper verbessern wir das multimodale verstärkte Training von MobileCLIP durch: 1) verbesserte CLIP-Teacher-Ensembles, die auf dem DFN-Datensatz trainiert wurden, und 2) optimierte Captioner-Teacher, die ebenfalls auf dem DFN-Datensatz trainiert und anschließend an einer vielfältigen Auswahl hochwertiger Bild-Caption-Datensätze feinabgestimmt wurden. Durch Ablationen gewinnen wir neue Erkenntnisse, beispielsweise die Bedeutung der Temperaturanpassung bei der kontrastiven Wissens-Distillation, die Wirksamkeit der Feinabstimmung von Caption-Generatoren zur Steigerung der Caption-Vielfalt sowie die additive Verbesserung durch die Kombination synthetischer Captions, die von mehreren Modellen generiert wurden. Wir trainieren eine neue Modellfamilie namens MobileCLIP2 und erreichen dabei state-of-the-art-Genauigkeiten auf ImageNet-1k im Zero-Shot-Setting bei niedriger Latenz. Insbesondere beobachten wir eine Verbesserung der ImageNet-1k-Genauigkeit um 2,2 % für MobileCLIP2-B im Vergleich zur MobileCLIP-B-Architektur. Bemerkenswert ist, dass MobileCLIP2-S4 die Zero-Shot-Genauigkeit von SigLIP-SO400M/14 auf ImageNet-1k erreicht, dabei aber die Größe um das Zweifache reduziert und bei 2,5-fach niedrigerer Latenz die Leistung von DFN ViT-L/14 übertrifft. Wir veröffentlichen unsere vortrainierten Modelle (dieser https-URL) sowie den Code zur Datengenerierung (diese https-URL). Der Datengenerierungs-Code ermöglicht es, mit verteilten, skalierbaren Prozessen problemlos neue verstärkte Datensätze mit beliebigen Teacher-Modellen zu erstellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

Abstract

KI mit KI entwickeln

Hyper Newsletters