HyperAIHyperAI

Command Palette

Search for a command to run...

Classification d'images avec un vocabulaire ouvert non contraint : Transfert zéro-shot du texte à l'image via l'inversion de CLIP

Philipp Allgeuer Kyra Ahrens Stefan Wermter

Résumé

Nous présentons NOVIC, un innovant classifieur d'images en vocabulaire ouvert non contraint (unconstrained Open Vocabulary Image Classifier) en temps réel qui utilise un transformateur autorégressif pour générer des étiquettes de classification sous forme de langage. En exploitant les connaissances approfondies des modèles CLIP, NOVIC utilise l'espace d'embedding pour permettre le transfert zéro-shot du texte pur aux images. Bien que les modèles CLIP traditionnels soient capables de classification en vocabulaire ouvert, ils nécessitent une liste exhaustive des étiquettes de classe potentielles, limitant ainsi leur application aux images dont le contenu ou le contexte est connu. Pour remédier à cette limitation, nous proposons un modèle de « décodeur d'objets » formé sur un ensemble de données à grande échelle comprenant 92 millions d'objectifs, constitué de noms d'objets modélisés et de légendes générées par des LLM (Large Language Models). Ce modèle est conçu pour toujours produire le nom d'objet en question. Cette approche inverse effectivement l'encodeur texte de CLIP et permet la génération directe d'étiquettes textuelles d'objets provenant essentiellement de l'intégralité de la langue anglaise à partir des vecteurs d'embedding issus des images, sans nécessiter aucune connaissance préalable du contenu potentiel d'une image et sans aucun biais dans les étiquettes. Les décodeurs formés sont testés sur un mélange de jeux de données manuellement et automatiquement curatés, ainsi que sur des benchmarks standard de classification d'images, atteignant des scores de prédiction fine-grain sans prompt allant jusqu'à 87,5 %, ce qui constitue un résultat remarquable compte tenu du fait que le modèle doit fonctionner pour toute image imaginable et sans indices contextuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp