HyperAIHyperAI

Command Palette

Search for a command to run...

ALIP: Adaptive Language-Image Pre-training mit synthetischen Captions

Kaicheng Yang Jiankang Deng Xiang An Jiawei Li Ziyong Feng Jia Guo Jing Yang Tongliang Liu

Zusammenfassung

Contrastive Language-Image Pre-training (CLIP) hat die Leistung verschiedener Vision-Sprache-Aufgaben erheblich gesteigert, indem die Datensätze durch Web-basierte Bild-Text-Paare skaliert wurden. Allerdings können inhärente Rauschkomponenten und nicht übereinstimmende Bild-Text-Paare in Web-Daten die Leistung des Repräsentationslernens negativ beeinflussen. Um dieses Problem anzugehen, nutzen wir zunächst das OFA-Modell, um synthetische Beschreibungen zu generieren, die sich auf den Inhalt der Bilder konzentrieren. Diese generierten Beschreibungen enthalten ergänzende Informationen, die für das Vortrainieren von Vorteil sind. Anschließend stellen wir Adaptive Language-Image Pre-training (ALIP) vor, ein zweipfadiges Modell, das sowohl Supervision aus Roh-Texten als auch aus synthetischen Beschreibungen integriert. Als zentrale Komponenten von ALIP dynamisch anpassende Gewichte für Trainingsbeispiele und Bild-Text-/Beschreibungspaare während des Trainingsprozesses. Gleichzeitig kann die adaptive kontrastive Verlustfunktion die Auswirkungen von Rauschdaten effektiv reduzieren und die Effizienz des Trainingsdatensatzes erhöhen. Wir validieren ALIP anhand von Experimenten mit Modellen unterschiedlicher Größe und Vortrainingsdatensätzen. Die experimentellen Ergebnisse zeigen, dass ALIP auf mehreren nachgeschalteten Aufgaben, einschließlich zero-shot Bild-Text-Abfrage und Linear Probe, eine state-of-the-art-Leistung erzielt. Um zukünftige Forschung zu erleichtern, werden der Code und die vortrainierten Modelle unter https://github.com/deepglint/ALIP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ALIP: Adaptive Language-Image Pre-training mit synthetischen Captions | Paper | HyperAI