Détection d'objets en une seule prise avec co-attention et co-excitation

Ce travail vise à aborder le problème complexe de la détection d'objets en une seule prise. Étant donné un patch d'image de requête dont l'étiquette de classe n'est pas incluse dans les données d'entraînement, l'objectif de cette tâche est de détecter toutes les instances de la même classe dans une image cible. Pour ce faire, nous développons un cadre novateur de {\em co-attention et co-excitation} (CoAE) qui apporte des contributions dans trois aspects techniques clés. Premièrement, nous proposons d'utiliser l'opération non-locale pour explorer la co-attention présente dans chaque paire requête-cible et générer des propositions régionales prenant en compte la situation en une seule prise. Deuxièmement, nous formulons un schéma de compression et co-excitation qui peut souligner de manière adaptative les canaux de caractéristiques corrélés afin d'aider à révéler les propositions pertinentes et, finalement, les objets cibles. Troisièmement, nous concevons une perte de classement basée sur une marge pour apprendre implicitement une métrique permettant de prédire la similarité entre une proposition régionale et la requête sous-jacente, quels que soient les étiquettes de classe vues ou non vues lors de l'entraînement. Le modèle résultant est donc un détecteur en deux étapes qui fournit une base solide tant sur VOC que sur MS-COCO dans le contexte de détection d'objets en une seule prise, y compris pour des classes jamais vues lors de l'entraînement. Les codes sources sont disponibles à l'adresse suivante : https://github.com/timy90022/One-Shot-Object-Detection.