HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage à partir de sémantiques riches et de localisations grossières pour la détection d'objets à queue longue

Lingchen Meng; Xiyang Dai; Jianwei Yang; Dongdong Chen; Yinpeng Chen; Mengchen Liu; Yi-Ling Chen; Zuxuan Wu; Lu Yuan; Yu-Gang Jiang

Résumé

La détection d'objets à queue longue (LTOD) vise à gérer l'extrême déséquilibre des données dans les ensembles de données du monde réel, où de nombreuses classes à queue longue ont peu d'instances. Une stratégie populaire consiste à explorer des données supplémentaires avec des étiquettes au niveau de l'image, mais elle produit des résultats limités en raison de (1) l'ambiguïté sémantique -- une étiquette au niveau de l'image ne capture qu'une partie saillante de l'image, ignorant les sémantiques riches restantes ; et (2) la sensibilité à la localisation -- l'étiquette dépend fortement des positions et des découpages de l'image originale, qui peuvent changer après des transformations de données comme le découpage aléatoire.Pour remédier à ces problèmes, nous proposons RichSem, une méthode simple mais efficace, robuste pour apprendre des sémantiques riches à partir de localisations grossières sans nécessiter des boîtes englobantes précises. RichSem exploite les sémantiques riches provenant des images, qui servent ensuite de supervision douce supplémentaire pour former les détecteurs. Plus précisément, nous ajoutons une branche sémantique à notre détecteur pour apprendre ces sémantiques douces et améliorer les représentations de caractéristiques pour la détection d'objets à queue longue. La branche sémantique n'est utilisée que pendant l'entraînement et est supprimée lors de l'inférence.RichSem obtient des améliorations constantes tant sur l'ensemble général que sur les catégories rares du LVIS sous différents backbones et détecteurs. Notre méthode atteint un niveau de performance state-of-the-art sans nécessiter des procédures d'entraînement et de test complexes. De plus, nous montrons l'efficacité de notre méthode sur d'autres ensembles de données à queue longue grâce à des expériences supplémentaires. Le code est disponible sur \url{https://github.com/MengLcool/RichSem}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp