Command Palette
Search for a command to run...
H2FA R-CNN : Alignement de Fonctionnalités Holistique et Hiérarchique pour la Détection d'Objets Faiblement Supervisée à Domaine Croisé
H2FA R-CNN : Alignement de Fonctionnalités Holistique et Hiérarchique pour la Détection d'Objets Faiblement Supervisée à Domaine Croisé
Yi Yang Jiaxu Miao Zongxin Yang Yifan Sun Yunqiu Xu
Résumé
La détection d'objets faiblement supervisée à domaine croisé (CDWSOD) vise à adapter un modèle de détection à un nouveau domaine cible, dont les annotations au niveau des images sont facilement disponibles. L'alignement entre les domaines source et cible constitue un élément crucial pour la précision de la CDWSOD. Les méthodes existantes se concentrent généralement sur des composants partiels de détection pour réaliser cet alignement. À l'inverse, cet article considère que tous les composants de détection sont essentiels et propose un modèle H^2FA R-CNN basé sur une alignement holistique et hiérarchique des caractéristiques. H^2FA R-CNN impose deux alignements au niveau des images pour les caractéristiques du modèle principal (backbone), ainsi que deux alignements au niveau des instances pour le RPN (Region Proposal Network) et la tête de détection. Cette hiérarchie d'alignement de coarse à fine suit naturellement le pipeline de détection, en traitant d'abord les caractéristiques au niveau des images, puis les caractéristiques au niveau des instances, de bas en haut. De manière importante, nous proposons une nouvelle méthode de supervision hybride pour apprendre les deux alignements au niveau des instances. Cette approche permet au RPN et à la tête de détection de recevoir simultanément une supervision faible ou complète provenant des domaines cible ou source. En combinant tous ces alignements de caractéristiques, H^2FA R-CNN réduit efficacement l'écart entre les domaines source et cible. Les résultats expérimentaux montrent que H^2FA R-CNN améliore significativement la précision de la détection d'objets à domaine croisé et établit un nouveau record sur des benchmarks populaires. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/XuYunqiu/H2FA_R-CNN.