HyperAIHyperAI
vor 17 Tagen

Skalierung des Vision-Sprache-Vortrainings für Bildbeschreibung

Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
Skalierung des Vision-Sprache-Vortrainings für Bildbeschreibung
Abstract

In den letzten Jahren haben wir eine erhebliche Leistungssteigerung bei der Bildbeschreibungsaufgabe aufgrund von Vision-Language-Prätrainings (VLP) beobachtet. Die Skalierung gilt als ein entscheidender Faktor für diesen Fortschritt. Allerdings konzentrieren sich die meisten bestehenden Arbeiten lediglich auf das Prätraining von Transformer-Modellen mittlerer Größe (z. B. 12 oder 24 Schichten) auf etwa 4 Millionen Bildern. In diesem Paper stellen wir LEMON, einen LargE-scale iMage captiONer, vor und liefern die erste empirische Studie zur Skalierungseigenschaft von VLP für die Bildbeschreibung. Als Referenzmodell verwenden wir das aktuell fortschrittlichste VinVL-Modell, das aus einem Bildmerkmalsextraktor und einem Transformer-Modell besteht, und skalieren den Transformer sowohl nach oben als auch nach unten, wobei die Modellgrößen zwischen 13 und 675 Millionen Parametern liegen. In Bezug auf die Daten führen wir Experimente mit bis zu 200 Millionen Bild-Text-Paaren durch, die automatisch aus dem Web basierend auf dem alt-Attribut der Bilder gesammelt wurden (bezeichnet als ALT200M). Umfassende Analysen ermöglichen es, den Leistungstrend im Hinblick auf wachsende Modellgröße und Prätrainingsdatenmenge zu charakterisieren. Zudem vergleichen wir verschiedene Trainingsstrategien, insbesondere im Kontext des Trainings auf großskaligen, verrauschten Datensätzen. Als Ergebnis erreicht LEMON neue SOTA (State-of-the-Art)-Ergebnisse auf mehreren bedeutenden Benchmarks für die Bildbeschreibung, darunter COCO Caption, nocaps und Conceptual Captions. Zudem zeigen wir, dass LEMON bei null-schrittiger Anwendung (zero-shot) in der Lage ist, Beschreibungen für seltene visuelle Konzepte zu generieren.