Conceptual 12M: Den Web-Skaligen Bild-Text-Vortrainingsansatz zur Erkennung seltener visueller Konzepte voranbringen

Die Verfügbarkeit großer Bildbeschreibung- und visuell-linguistischer Frage-Antwort-Datensätze hat erheblich zu den jüngsten Erfolgen im Bereich der vision-und-sprache-Vortrainierung beigetragen. Diese Datensätze werden jedoch oft mit übermäßig restriktiven Anforderungen gesammelt, die aus ihren ursprünglichen Zielaufgaben (z. B. Bildbeschreibungserzeugung) stammen, was die Skalierbarkeit und Vielfalt der resultierenden Datensätze einschränkt. Wir gehen einen Schritt weiter, um die Grenzen des Vortrainingsdatenmaterials für vision-und-sprache-Modelle zu erweitern, indem wir die Datensammlungspipeline von Conceptual Captions 3M (CC3M) [Sharma et al. 2018] entschärfen und das Conceptual 12M (CC12M) vorstellen – einen Datensatz mit 12 Millionen Bild-Text-Paaren, der speziell für die vision-und-sprache-Vortrainierung konzipiert ist. Wir analysieren diesen Datensatz und bewerten seine Wirksamkeit gegenüber CC3M anhand mehrerer nachgeschalteter Aufgaben, wobei besonderes Augenmerk auf die Erkennung seltener (long-tail) visueller Klassen gelegt wird. Unsere Ergebnisse verdeutlichen eindeutig den Vorteil einer Skalierung der Vortrainingsdaten für vision-und-sprache-Aufgaben, wie sich an den neuen Sollwert-Ergebnissen sowohl auf dem nocaps- als auch auf dem Conceptual Captions-Benchmark zeigt.