HyperAIHyperAI
il y a 4 mois

Les prototypes multimodaux complets sont des classifieurs simples et efficaces pour la détection d'objets à vocabulaire vaste.

Yitong Chen; Wenhao Yao; Lingchen Meng; Sihong Wu; Zuxuan Wu; Yu-Gang Jiang
Les prototypes multimodaux complets sont des classifieurs simples et efficaces pour la détection d'objets à vocabulaire vaste.
Résumé

Permettre aux modèles de reconnaître une multitude de catégories dans le monde ouvert a toujours été une quête importante en détection d'objets. En exploitant les capacités de généralisation des modèles vision-langue, les détecteurs actuels du monde ouvert peuvent reconnaître un éventail plus large de vocabulaires, malgré leur entraînement sur des catégories limitées. Cependant, lorsque l'échelle des vocabulaires de catégories lors de l'entraînement s'étend à un niveau réel, les classifieurs précédemment alignés avec des noms de classes grossiers réduisent considérablement les performances de reconnaissance de ces détecteurs. Dans cet article, nous présentons Prova, un classifieur multimodal prototype pour la détection d'objets à grand vocabulaire. Prova extrait des prototypes multimodaux complets comme initialisation des classifieurs d'alignement afin de résoudre le problème d'échec de reconnaissance d'objets à grand vocabulaire. Sur V3Det, cette méthode simple améliore considérablement les performances parmi les détecteurs mono-étape, bi-étapes et basés sur DETR, avec seulement des couches supplémentaires de projection dans les configurations supervisées et à vocabulaire ouvert. Plus particulièrement, Prova améliore Faster R-CNN, FCOS et DINO respectivement de 3,3 points AP (Average Precision), 6,2 points AP et 2,9 points AP dans le cadre supervisé de V3Det. Pour la configuration à vocabulaire ouvert, Prova atteint une nouvelle performance au stade avancé avec 32,8 points AP pour les classes de base et 11,0 points AP pour les nouvelles classes, ce qui représente une amélioration respective de 2,6 points et 4,3 points par rapport aux méthodes précédentes.

Les prototypes multimodaux complets sont des classifieurs simples et efficaces pour la détection d'objets à vocabulaire vaste. | Articles de recherche | HyperAI