ALIP: Adaptive Language-Image Pre-training mit synthetischen Captions

Contrastive Language-Image Pre-training (CLIP) hat die Leistung verschiedener Vision-Sprache-Aufgaben erheblich gesteigert, indem die Datensätze durch Web-basierte Bild-Text-Paare skaliert wurden. Allerdings können inhärente Rauschkomponenten und nicht übereinstimmende Bild-Text-Paare in Web-Daten die Leistung des Repräsentationslernens negativ beeinflussen. Um dieses Problem anzugehen, nutzen wir zunächst das OFA-Modell, um synthetische Beschreibungen zu generieren, die sich auf den Inhalt der Bilder konzentrieren. Diese generierten Beschreibungen enthalten ergänzende Informationen, die für das Vortrainieren von Vorteil sind. Anschließend stellen wir Adaptive Language-Image Pre-training (ALIP) vor, ein zweipfadiges Modell, das sowohl Supervision aus Roh-Texten als auch aus synthetischen Beschreibungen integriert. Als zentrale Komponenten von ALIP dynamisch anpassende Gewichte für Trainingsbeispiele und Bild-Text-/Beschreibungspaare während des Trainingsprozesses. Gleichzeitig kann die adaptive kontrastive Verlustfunktion die Auswirkungen von Rauschdaten effektiv reduzieren und die Effizienz des Trainingsdatensatzes erhöhen. Wir validieren ALIP anhand von Experimenten mit Modellen unterschiedlicher Größe und Vortrainingsdatensätzen. Die experimentellen Ergebnisse zeigen, dass ALIP auf mehreren nachgeschalteten Aufgaben, einschließlich zero-shot Bild-Text-Abfrage und Linear Probe, eine state-of-the-art-Leistung erzielt. Um zukünftige Forschung zu erleichtern, werden der Code und die vortrainierten Modelle unter https://github.com/deepglint/ALIP veröffentlicht.