HyperAIHyperAI
vor 18 Tagen

CREPE: Können Vision-Sprache-Grundmodellierungen kompositionell schließen?

Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
CREPE: Können Vision-Sprache-Grundmodellierungen kompositionell schließen?
Abstract

Ein grundlegendes Merkmal, das sowohl das menschliche Sehen als auch die natürliche Sprache gemeinsam haben, ist ihre kompositionelle Struktur. Dennoch stellen wir fest, dass – trotz der durch große Vorbildungsmodelle für Vision und Sprache erzielten Leistungssteigerungen – sie bei der Beherrschung von Kompositionalität angesichts von sieben Architekturen, die mit vier Algorithmen auf riesigen Datensätzen trainiert wurden, erhebliche Schwierigkeiten haben. Um zu diesem Ergebnis zu gelangen, führen wir einen neuen Bewertungsbenchmark für Kompositionalität, CREPE, ein, der zwei zentrale Aspekte der Kompositionalität erfasst, die in der kognitiven Wissenschaft literatur identifiziert wurden: Systematik und Produktivität. Zur Messung der Systematik umfasst CREPE eine Testdatenmenge mit über 370.000 Bild-Text-Paaren sowie drei verschiedene Splits aus gesehenen und nicht gesehenen Daten. Diese drei Splits sind speziell darauf ausgelegt, Modelle zu testen, die auf drei gängigen Trainingsdatensätzen – CC-12M, YFCC-15M und LAION-400M – trainiert wurden. Zudem generieren wir jeweils 325.000, 316.000 und 309.000 schwierige negative Beschreibungen für eine Teilmenge dieser Paare. Zur Bewertung der Produktivität enthält CREPE 17.000 Bild-Text-Paare mit neun unterschiedlichen Komplexitätsstufen sowie 183.000 schwierige negative Beschreibungen mit atomaren, vertauschten und negativen Manipulationen. Die Datensätze werden durch Umwidmung der Scene Graphs und Regionenbeschreibungen aus Visual Genome sowie durch Anwendung handgefertigter Vorlagen und GPT-3 generiert. Bei der Systematik zeigen sich konsistente Leistungseinbußen, wenn neue, bisher nicht gesehene Kombinationen den Retrieval-Satz dominieren, wobei der Recall@1 um bis zu 12 % sinkt. Bei der Produktivität nimmt die Erfolgsrate der Retrieval-Aufgaben mit steigender Komplexität ab und nähert sich häufig dem Zufallsspielstand bei hoher Komplexität an. Diese Ergebnisse gelten unabhängig von der Modellarchitektur und der Größe des Trainingsdatensatzes.