Classification d'images avec un vocabulaire ouvert non contraint : Transfert zéro-shot du texte à l'image via l'inversion de CLIP

Nous présentons NOVIC, un innovant classifieur d'images en vocabulaire ouvert non contraint (unconstrained Open Vocabulary Image Classifier) en temps réel qui utilise un transformateur autorégressif pour générer des étiquettes de classification sous forme de langage. En exploitant les connaissances approfondies des modèles CLIP, NOVIC utilise l'espace d'embedding pour permettre le transfert zéro-shot du texte pur aux images. Bien que les modèles CLIP traditionnels soient capables de classification en vocabulaire ouvert, ils nécessitent une liste exhaustive des étiquettes de classe potentielles, limitant ainsi leur application aux images dont le contenu ou le contexte est connu. Pour remédier à cette limitation, nous proposons un modèle de « décodeur d'objets » formé sur un ensemble de données à grande échelle comprenant 92 millions d'objectifs, constitué de noms d'objets modélisés et de légendes générées par des LLM (Large Language Models). Ce modèle est conçu pour toujours produire le nom d'objet en question. Cette approche inverse effectivement l'encodeur texte de CLIP et permet la génération directe d'étiquettes textuelles d'objets provenant essentiellement de l'intégralité de la langue anglaise à partir des vecteurs d'embedding issus des images, sans nécessiter aucune connaissance préalable du contenu potentiel d'une image et sans aucun biais dans les étiquettes. Les décodeurs formés sont testés sur un mélange de jeux de données manuellement et automatiquement curatés, ainsi que sur des benchmarks standard de classification d'images, atteignant des scores de prédiction fine-grain sans prompt allant jusqu'à 87,5 %, ce qui constitue un résultat remarquable compte tenu du fait que le modèle doit fonctionner pour toute image imaginable et sans indices contextuels.