Unbeschränkte Offene Vokabular Bildklassifizierung: Nullschuss-Transfer von Text zu Bild durch CLIP-Inversion

Wir stellen NOVIC vor, einen innovativen Echtzeit-Klassifikator für unbegrenzte offene Vokabularbilder (unconstrained Open Vocabulary Image Classifier), der einen autoregressiven Transformer verwendet, um Klassifizierungsbezeichnungen als Sprache generativ auszugeben. Indem wir das umfangreiche Wissen von CLIP-Modellen nutzen, ermöglicht NOVIC den Embedding-Raum zu nutzen, um eine zero-shot-Übertragung von reinem Text auf Bilder durchzuführen. Traditionelle CLIP-Modelle können zwar offenes Vokabular klassifizieren, erfordern jedoch eine umfassende Aufzählung potentieller Klassenbezeichnungen, was ihre Anwendung auf Bilder mit bekanntem Inhalt oder Kontext einschränkt. Um dies zu beheben, schlagen wir ein "Objekt-Dekoder"-Modell vor, das auf einem groß angelegten Datensatz mit 92 Millionen Zielobjekten trainiert wird. Dieser Datensatz besteht aus vorgeformten Objekt-Nomen-Sätzen und von LLMs (Large Language Models) generierten Bildunterschriften und ist so darauf ausgelegt, immer das fragliche Objekt-Nomen auszugeben. Dies invertiert effektiv den CLIP-Textencoder und ermöglicht es, textuelle Objektbezeichnungen praktisch aus dem gesamten Englischen Wortschatz direkt aus bildbasierten Embedding-Vektoren zu generieren, ohne irgendein vorheriges Wissen über den möglichen Inhalt eines Bildes zu benötigen und ohne jegliche Label-Voreingenommenheiten. Die trainierten Dekoder werden an einer Mischung manuell erstellter und web-basierter Datensätze sowie an standardisierten Bildklassifikationsbenchmarks getestet und erreichen feingranulare vorkennungsfreie Vorhersageergebnisse von bis zu 87,5 %. Dies ist ein starkes Ergebnis, wenn man bedenkt, dass das Modell für jedes denkbare Bild funktionieren muss und keine kontextuellen Hinweise benötigt.