HyperAIHyperAI
il y a 16 jours

Pyramide de distillation consciente des objets pour la détection d'objets à vocabulaire ouvert

Luting Wang, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi, Biaolong Chen, Si Liu
Pyramide de distillation consciente des objets pour la détection d'objets à vocabulaire ouvert
Résumé

La détection d'objets à vocabulaire ouvert vise à doter les détecteurs d'objets entraînés sur un ensemble fixe de catégories d'objets de la capacité à détecter des objets décrits par des requêtes textuelles arbitraires. Les méthodes précédentes ont recouru à la distillation de connaissances pour extraire des connaissances provenant des modèles pré-entraînés vision-langage (PVLM) et à les transférer vers les détecteurs. Toutefois, en raison de la découpe non adaptative des propositions d'objets et du processus de mimétisme de caractéristiques à un seul niveau, ces approches souffrent d'une destruction d'information lors de l'extraction des connaissances et d'un transfert inefficace de celles-ci. Pour remédier à ces limitations, nous proposons un cadre appelé Object-Aware Distillation Pyramid (OADP), comprenant un module d'extraction de connaissances orienté objet (OAKE) et un mécanisme de pyramide de distillation (DP). Lors de l'extraction des connaissances relatives aux objets à partir des PVLM, le module OAKE transforme de manière adaptative les propositions d'objets et utilise une attention masquée orientée objet afin d'obtenir des connaissances précises et complètes sur les objets. Le mécanisme DP introduit une distillation globale et une distillation par blocs pour assurer un transfert de connaissances plus complet, compensant ainsi l'information manquante sur les relations dans la distillation des objets. Des expériences étendues montrent que notre méthode obtient une amélioration significative par rapport aux approches actuelles. En particulier, sur le jeu de données MS-COCO, notre cadre OADP atteint un score de $35,6$ mAP$^{\text{N}}{50}$, dépassant ainsi la méthode d'état de l'art actuelle de $3,3$ mAP$^{\text{N}}{50}$. Le code source est disponible à l'adresse suivante : https://github.com/LutingWang/OADP.

Pyramide de distillation consciente des objets pour la détection d'objets à vocabulaire ouvert | Articles de recherche récents | HyperAI