HyperAIHyperAI
il y a 2 mois

Détecter Tout avec Peu d'Exemples

Zhang, Xinyu ; Liu, Yuhan ; Wang, Yuting ; Boularias, Abdeslam
Détecter Tout avec Peu d'Exemples
Résumé

La détection d'objets à faible supervision vise à détecter de nouvelles catégories d'objets à partir de seulement quelques images exemples. Il s'agit d'une compétence fondamentale pour les robots opérant dans des environnements ouverts. Les méthodes récentes se concentrent sur des stratégies de fine-tuning, avec des procédures complexes qui entravent une application plus large. Dans cet article, nous présentons DE-ViT, un détecteur d'objets à faible supervision qui n'a pas besoin de fine-tuning. L'architecture novatrice de DE-ViT repose sur un nouveau mécanisme de propagation régionale pour la localisation. Les masques régionaux propagés sont transformés en boîtes englobantes grâce à une couche intégrale spatiale apprenable. Au lieu de former des classifieurs prototypes, nous proposons d'utiliser des prototypes pour projeter les caractéristiques ViT dans un sous-espace résistant au surapprentissage sur les classes de base. Nous évaluons DE-ViT sur des benchmarks de détection d'objets à faible et unique supervision en utilisant Pascal VOC, COCO et LVIS. DE-ViT établit de nouveaux résultats d'état de l'art sur tous les benchmarks. Notamment, pour COCO, DE-ViT dépasse l'état de l'art à faible supervision (SoTA) de 15 points mAP sur 10-shot et de 7,2 points mAP sur 30-shot, ainsi que l'état de l'art unique supervision (SoTA) de 2,8 points AP50. Pour LVIS, DE-ViT surpass l'état de l'art à faible supervision (SoTA) par 17 points APr en boîtes englobantes. De plus, nous évaluons DE-ViT avec un robot réel en construisant un système de prélèvement et placement pour trier des objets inconnus basé sur des images exemples. Les vidéos démonstratives du robot, le code source et les modèles DE-ViT peuvent être consultés à l'adresse suivante : https://mlzxy.github.io/devit.

Détecter Tout avec Peu d'Exemples | Articles de recherche récents | HyperAI