HyperAIHyperAI
il y a 3 mois

Apprentissage de boîtes englobantes à haute précision pour la détection d'objets en rotation via la divergence de Kullback-Leibler

Xue Yang, Xiaojiang Yang, Jirui Yang, Qi Ming, Wentao Wang, Qi Tian, Junchi Yan
Apprentissage de boîtes englobantes à haute précision pour la détection d'objets en rotation via la divergence de Kullback-Leibler
Résumé

Les détecteurs actuels de objets tournés sont principalement hérités du paradigme de détection horizontale, qui s’est lui-même développé de manière très avancée. Toutefois, ces détecteurs peinent à atteindre une précision élevée en raison des limitations inhérentes à la conception actuelle des fonctions de perte de régression, en particulier pour les objets présentant des rapports d’aspect élevés. En considérant que la détection horizontale constitue un cas particulier de la détection d’objets tournés, nous sommes motivés, dans cet article, à repenser la conception de la perte de régression de rotation, en passant du paradigme inductif au raisonnement déductif, en tenant compte de la relation entre la rotation et la détection horizontale. Nous montrons qu’un défi fondamental réside dans la modulation des paramètres couplés dans la perte de régression de rotation, de manière à ce que les paramètres estimés puissent s’influencer mutuellement de manière adaptative et synergique durant l’optimisation conjointe dynamique. Plus précisément, nous convertissons d’abord la boîte englobante tournée en une distribution gaussienne à deux dimensions, puis calculons la divergence de Kullback-Leibler (KLD) entre ces distributions comme fonction de perte de régression. En analysant le gradient de chaque paramètre, nous démontrons que la KLD (et ses dérivées) peut ajuster dynamiquement les gradients des paramètres en fonction des caractéristiques de l’objet. En particulier, elle ajuste de manière adaptative l’importance (le poids du gradient) du paramètre d’angle en fonction du rapport d’aspect. Ce mécanisme s’avère crucial pour une détection à haute précision, car une légère erreur d’angle peut entraîner une chute importante de la précision pour les objets à grand rapport d’aspect. Plus important encore, nous prouvons que la perte KLD est invariante à l’échelle. Nous montrons également que cette perte peut se réduire à la perte classique $l_n$-norme utilisée pour la détection horizontale. Les résultats expérimentaux sur sept jeux de données, réalisés avec divers détecteurs, démontrent de manière cohérente l’avantage de notre approche. Les codes sont disponibles à l’adresse suivante : https://github.com/yangxue0827/RotationDetection et https://github.com/open-mmlab/mmrotate.