HyperAIHyperAI
il y a 15 jours

DETR à vocabulaire ouvert avec correspondance conditionnelle

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy
DETR à vocabulaire ouvert avec correspondance conditionnelle
Résumé

La détection d’objets à vocabulaire ouvert, qui consiste à détecter des objets nouveaux guidés par un langage naturel, suscite un intérêt croissant au sein de la communauté. Idéalement, nous souhaiterions étendre un détecteur à vocabulaire ouvert de manière à ce qu’il puisse produire des prédictions de boîtes englobantes à partir d’entrées utilisateur sous forme de langage naturel ou d’images exemplaires. Cela offrirait une grande flexibilité et une meilleure expérience utilisateur dans les interactions homme-machine. À cette fin, nous proposons un nouveau détecteur à vocabulaire ouvert basé sur DETR — d’où son nom OV-DETR — qui, une fois entraîné, est capable de détecter n’importe quel objet à partir de son nom de classe ou d’une image exemplaire. Le défi majeur pour transformer DETR en détecteur à vocabulaire ouvert réside dans l’impossibilité de calculer la matrice de coût de classification pour des classes nouvelles sans accès à leurs images annotées. Pour surmonter ce défi, nous formulons l’objectif d’apprentissage comme une correspondance binaire entre les requêtes d’entrée (nom de classe ou image exemplaire) et les objets correspondants, ce qui permet d’apprendre des correspondances utiles capables de généraliser aux requêtes non vues lors de l’évaluation. Pour l’entraînement, nous choisissons de conditionner le décodeur Transformer sur les embeddings d’entrée obtenus à partir d’un modèle vision-langage pré-entraîné comme CLIP, afin de permettre la correspondance aussi bien pour les requêtes textuelles que pour les requêtes d’image. Grâce à des expériences étendues sur les jeux de données LVIS et COCO, nous démontrons que notre OV-DETR — premier détecteur à vocabulaire ouvert basé sur un modèle Transformer et entièrement end-to-end — atteint des améliorations significatives par rapport aux états de l’art actuels.

DETR à vocabulaire ouvert avec correspondance conditionnelle | Articles de recherche récents | HyperAI