HyperAIHyperAI
il y a 2 mois

Détection d'objets décrits : Libérer la détection d'objets avec des expressions flexibles

Xie, Chi ; Zhang, Zhao ; Wu, Yixuan ; Zhu, Feng ; Zhao, Rui ; Liang, Shuang
Détection d'objets décrits : Libérer la détection d'objets avec des expressions flexibles
Résumé

La détection d'objets basée sur des informations linguistiques est une tâche populaire qui inclut la détection d'objets à vocabulaire ouvert (OVD) et la compréhension des expressions de référence (REC). Dans cet article, nous les développons dans un cadre plus pratique appelé Détection d'Objets Descrits (DOD) en élargissant les noms de catégories à des expressions linguistiques flexibles pour l'OVD et en surmontant la limitation de l'REC qui ne peut associer que des objets préexistants. Nous établissons les fondements de la recherche pour le DOD en construisant un jeu de données de détection descriptive ($D^3$). Ce jeu de données présente des expressions linguistiques flexibles, qu'il s'agisse de noms de catégories courts ou de descriptions longues, et il annotate tous les objets décrits sur toutes les images sans omission. En évaluant les méthodes précédentes SOTA sur $D^3$, nous identifions certains problèmes qui entravent actuellement l'REC, l'OVD et les méthodes bifonctionnelles. Les méthodes REC ont du mal avec les scores de confiance, le rejet des instances négatives et les scénarios multi-cibles, tandis que les méthodes OVD sont confrontées à des contraintes liées aux descriptions longues et complexes. Les méthodes bifonctionnelles récentes ne fonctionnent également pas bien sur le DOD en raison de leurs procédures d'entraînement et stratégies d'inférence séparées pour les tâches REC et OVD. Sur la base des constatations mentionnées ci-dessus, nous proposons une ligne de base qui améliore considérablement les méthodes REC en reconstruisant les données d'entraînement et en introduisant une sous-tâche de classification binaire, surpassant ainsi les méthodes existantes. Les données et le code sont disponibles à l'adresse https://github.com/shikras/d-cube, et les travaux connexes sont suivis dans https://github.com/Charles-Xie/awesome-described-object-detection.

Détection d'objets décrits : Libérer la détection d'objets avec des expressions flexibles | Articles de recherche récents | HyperAI