HyperAIHyperAI
il y a 17 jours

DAMO-YOLO : Un rapport sur la conception détection d'objets en temps réel

Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
DAMO-YOLO : Un rapport sur la conception détection d'objets en temps réel
Résumé

Dans ce rapport, nous présentons une méthode rapide et précise de détection d'objets, baptisée DAMO-YOLO, qui atteint des performances supérieures à celles des modèles de la série YOLO les plus avancés. DAMO-YOLO est une extension de YOLO intégrant plusieurs innovations technologiques, notamment la Recherche d'Architecture Neuronale (NAS), un Generalized-FPN réparamétrisé efficace (RepGFPN), une tête légère basée sur une attribution de labels AlignedOTA, ainsi qu'une amélioration par distillation. En particulier, nous utilisons MAE-NAS, une méthode guidée par le principe d'entropie maximale, pour rechercher l'architecture de base dédiée à la détection sous les contraintes de faible latence et de haute performance, aboutissant à des structures inspirées de ResNet/CSP, intégrant des modules de pooling pyramidal spatial et de focus. Dans la conception des « necks » et des « heads », nous suivons le principe « grand neck, petit head ». Nous introduisons un Generalized-FPN doté d'une fusion accélérée par reine pour construire le « neck » du détecteur, et améliorons CSPNet en intégrant des réseaux d'agrégation de couches efficaces (ELAN) ainsi que la réparamétrisation. En outre, nous étudions l'impact de la taille de la tête du détecteur sur les performances et constatons qu’un « neck » lourd doté d’un seul couche de projection de tâche permet d’obtenir de meilleurs résultats. Par ailleurs, nous proposons AlignedOTA afin de résoudre le problème d’alignement dans l’attribution des étiquettes. Une stratégie de distillation est également introduite pour améliorer encore davantage les performances. Grâce à ces nouvelles technologies, nous avons conçu une gamme de modèles à différentes échelles, adaptés à divers scénarios d’application. Pour les besoins généraux du secteur industriel, nous proposons DAMO-YOLO-T/S/M/L, qui atteignent respectivement 43,6 / 47,7 / 50,2 / 51,9 mAP sur COCO avec une latence de 2,78 / 3,83 / 5,62 / 7,95 ms sur GPU T4. En outre, pour les dispositifs embarqués aux ressources informatiques limitées, nous avons également conçu des modèles légers DAMO-YOLO-Ns/Nm/Nl, atteignant 32,3 / 38,2 / 40,5 mAP sur COCO avec une latence de 4,08 / 5,05 / 6,69 ms sur CPU X86. Les modèles généraux et légers proposés dépassent les performances des autres modèles de la série YOLO dans leurs scénarios d’application respectifs.