HyperAIHyperAI

Command Palette

Search for a command to run...

Sans plus d'ombre : Déverrouiller le potentiel de CLIP pour la détection générative zéro-shot d'HOI

Yixin Guo Yu Liu Jianghao Li Weimin Wang Qi Jia

Résumé

Le détecteur de interactions homme-objet (HOI) à zéro exemple (zero-shot) est capable de généraliser à des catégories d’HOI jamais rencontrées durant l’entraînement. Inspirés par les performances remarquables en zéro exemple offertes par CLIP, les méthodes récentes cherchent à exploiter les embeddings de CLIP afin d’améliorer la détection d’HOI en zéro exemple. Toutefois, ces approches basées sur les embeddings entraînent uniquement le classificateur sur les classes observées, ce qui entraîne inévitablement une confusion entre classes vues et non vues lors de l’inférence. Par ailleurs, nous constatons que l’utilisation du prompt-tuning et des adapters accentue davantage l’écart entre les performances sur les classes vues et celles sur les classes non vues. Pour relever ce défi, nous proposons la première architecture fondée sur la génération de données pour la détection d’HOI en zéro exemple à l’aide de CLIP, baptisée HOIGen. Ce modèle permet d’exploiter pleinement le potentiel de CLIP pour la génération de caractéristiques, et non seulement pour leur extraction. Pour y parvenir, nous développons un générateur de caractéristiques injecté par CLIP, conçu spécifiquement pour la génération conjointe des caractéristiques humaines, objets et union. Ensuite, nous extrayons des caractéristiques réalistes pour les échantillons vus, que nous combinons avec des caractéristiques synthétiques, permettant ainsi à la fois l’entraînement conjoint des classes vues et non vues. Pour enrichir les scores d’HOI, nous construisons une banque de prototypes génératifs dans une branche de reconnaissance d’HOI par paires, et une banque de prototypes multi-connaissances dans une branche de reconnaissance d’HOI par image. Des expériences étendues sur le benchmark HICO-DET montrent que HOIGen atteint des performances supérieures, tant pour les classes vues que pour les classes non vues, dans diverses configurations de zéro exemple, par rapport aux méthodes les plus performantes existantes. Le code est disponible à l’adresse : https://github.com/soberguo/HOIGen


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp