Sans plus d'ombre : Déverrouiller le potentiel de CLIP pour la détection générative zéro-shot d'HOI

Le détecteur de interactions homme-objet (HOI) à zéro exemple (zero-shot) est capable de généraliser à des catégories d’HOI jamais rencontrées durant l’entraînement. Inspirés par les performances remarquables en zéro exemple offertes par CLIP, les méthodes récentes cherchent à exploiter les embeddings de CLIP afin d’améliorer la détection d’HOI en zéro exemple. Toutefois, ces approches basées sur les embeddings entraînent uniquement le classificateur sur les classes observées, ce qui entraîne inévitablement une confusion entre classes vues et non vues lors de l’inférence. Par ailleurs, nous constatons que l’utilisation du prompt-tuning et des adapters accentue davantage l’écart entre les performances sur les classes vues et celles sur les classes non vues. Pour relever ce défi, nous proposons la première architecture fondée sur la génération de données pour la détection d’HOI en zéro exemple à l’aide de CLIP, baptisée HOIGen. Ce modèle permet d’exploiter pleinement le potentiel de CLIP pour la génération de caractéristiques, et non seulement pour leur extraction. Pour y parvenir, nous développons un générateur de caractéristiques injecté par CLIP, conçu spécifiquement pour la génération conjointe des caractéristiques humaines, objets et union. Ensuite, nous extrayons des caractéristiques réalistes pour les échantillons vus, que nous combinons avec des caractéristiques synthétiques, permettant ainsi à la fois l’entraînement conjoint des classes vues et non vues. Pour enrichir les scores d’HOI, nous construisons une banque de prototypes génératifs dans une branche de reconnaissance d’HOI par paires, et une banque de prototypes multi-connaissances dans une branche de reconnaissance d’HOI par image. Des expériences étendues sur le benchmark HICO-DET montrent que HOIGen atteint des performances supérieures, tant pour les classes vues que pour les classes non vues, dans diverses configurations de zéro exemple, par rapport aux méthodes les plus performantes existantes. Le code est disponible à l’adresse : https://github.com/soberguo/HOIGen