HyperAIHyperAI

Command Palette

Search for a command to run...

Conceptual 12M: Den Web-Skaligen Bild-Text-Vortrainingsansatz zur Erkennung seltener visueller Konzepte voranbringen

Soravit Changpinyo Piyush Sharma Nan Ding Radu Soricut

Zusammenfassung

Die Verfügbarkeit großer Bildbeschreibung- und visuell-linguistischer Frage-Antwort-Datensätze hat erheblich zu den jüngsten Erfolgen im Bereich der vision-und-sprache-Vortrainierung beigetragen. Diese Datensätze werden jedoch oft mit übermäßig restriktiven Anforderungen gesammelt, die aus ihren ursprünglichen Zielaufgaben (z. B. Bildbeschreibungserzeugung) stammen, was die Skalierbarkeit und Vielfalt der resultierenden Datensätze einschränkt. Wir gehen einen Schritt weiter, um die Grenzen des Vortrainingsdatenmaterials für vision-und-sprache-Modelle zu erweitern, indem wir die Datensammlungspipeline von Conceptual Captions 3M (CC3M) [Sharma et al. 2018] entschärfen und das Conceptual 12M (CC12M) vorstellen – einen Datensatz mit 12 Millionen Bild-Text-Paaren, der speziell für die vision-und-sprache-Vortrainierung konzipiert ist. Wir analysieren diesen Datensatz und bewerten seine Wirksamkeit gegenüber CC3M anhand mehrerer nachgeschalteter Aufgaben, wobei besonderes Augenmerk auf die Erkennung seltener (long-tail) visueller Klassen gelegt wird. Unsere Ergebnisse verdeutlichen eindeutig den Vorteil einer Skalierung der Vortrainingsdaten für vision-und-sprache-Aufgaben, wie sich an den neuen Sollwert-Ergebnissen sowohl auf dem nocaps- als auch auf dem Conceptual Captions-Benchmark zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp