D-FINE : Redéfinir la tâche de régression dans les DETRs comme un affinage de distribution fine-grained

Nous présentons D-FINE, un puissant détecteur d'objets en temps réel qui atteint une précision de localisation exceptionnelle en redéfinissant la tâche de régression des boîtes englobantes dans les modèles DETR. D-FINE comprend deux composants clés : le Raffinement de Distribution à Grains Fins (Fine-grained Distribution Refinement, FDR) et l'Auto-distillation pour la Localisation Optimale Globale (Global Optimal Localization Self-Distillation, GO-LSD). Le FDR transforme le processus de régression de la prédiction de coordonnées fixes en un raffinement itératif des distributions de probabilité, fournissant une représentation intermédiaire à grains fins qui améliore considérablement la précision de localisation. Le GO-LSD est une stratégie d'optimisation bidirectionnelle qui transfère les connaissances de localisation des distributions raffinées vers les couches plus superficielles par auto-distillation, tout en simplifiant les tâches de prédiction résiduelle pour les couches plus profondes. De plus, D-FINE intègre des optimisations légères dans les modules et opérations intensivement calculatoires, permettant d'atteindre un meilleur équilibre entre vitesse et précision. Plus précisément, D-FINE-L / X obtient 54,0% / 55,8% AP sur l'ensemble de données COCO à 124 / 78 FPS sur une GPU NVIDIA T4. Lorsqu'il est pré-entraîné sur Objects365, D-FINE-L / X atteint 57,1% / 59,3% AP, surpassant tous les détecteurs existants en temps réel. En outre, notre méthode améliore considérablement les performances d'une large gamme de modèles DETR jusqu'à 5,3% AP avec un ajout négligeable de paramètres et coûts d'entraînement. Notre code et nos modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/Peterande/D-FINE.