HyperAIHyperAI
il y a 2 mois

Détection de Vingt Mille Classes à l'Aide d'une Supervision au Niveau des Images

Zhou, Xingyi ; Girdhar, Rohit ; Joulin, Armand ; Krähenbühl, Philipp ; Misra, Ishan
Détection de Vingt Mille Classes à l'Aide d'une Supervision au Niveau des Images
Résumé

Les détecteurs d'objets actuels sont limités en taille de vocabulaire en raison de l'échelle réduite des jeux de données de détection. En revanche, les classifieurs d'images traitent des vocabulaires beaucoup plus vastes, car leurs jeux de données sont plus importants et plus faciles à collecter. Nous proposons Detic, qui forme simplement les classifieurs d'un détecteur sur des données de classification d'images, élargissant ainsi le vocabulaire des détecteurs à plusieurs dizaines de milliers de concepts. Contrairement aux travaux antérieurs, Detic n'a pas besoin de schémas d'affectation complexes pour attribuer des étiquettes d'images aux boîtes basées sur les prédictions du modèle, ce qui le rend beaucoup plus facile à implémenter et compatible avec une variété d'architectures et de backbones de détection. Nos résultats montrent que Detic produit d'excellents détecteurs même pour les classes sans annotations de boîtes. Il surpasse les travaux précédents sur les benchmarks de détection à vocabulaire ouvert et à queue longue. Detic apporte une amélioration de 2,4 mAP pour toutes les classes et 8,3 mAP pour les classes nouvelles sur le benchmark LVIS à vocabulaire ouvert. Sur le benchmark LVIS standard, Detic obtient 41,7 mAP lorsqu'il est évalué sur toutes les classes ou uniquement sur les classes rares, réduisant ainsi l'écart de performance pour les catégories d'objets avec peu d'échantillons. Pour la première fois, nous formons un détecteur avec toutes les vingt-et-une-mille classes du jeu de données ImageNet et montrons qu'il se généralise à de nouveaux jeux de données sans finetuning. Le code est disponible à l'adresse \url{https://github.com/facebookresearch/Detic}.

Détection de Vingt Mille Classes à l'Aide d'une Supervision au Niveau des Images | Articles de recherche récents | HyperAI