Réinterroger la détection d'objets en rotation à l'aide d'une perte basée sur la distance de Wasserstein gaussienne

La discontinuité de frontière et son incohérence par rapport au métrique de détection finale constituent un goulot d’étranglement majeur dans la conception des pertes de régression pour la détection orientée. Dans cet article, nous proposons une nouvelle perte de régression fondée sur la distance de Wasserstein gaussienne, une approche fondamentale visant à résoudre ce problème. Plus précisément, la boîte englobante orientée est convertie en une distribution gaussienne bidimensionnelle, permettant ainsi d’approcher efficacement la perte induite par l’IoU rotationnel, qui est non différentiable, grâce à la distance de Wasserstein gaussienne (GWD), une fonction pouvant être apprise de manière efficace par propagation arrière du gradient. La GWD reste informative pour l’apprentissage même lorsque deux boîtes englobantes orientées ne s’intersectent pas, situation fréquente dans la détection d’objets de petite taille. Grâce à ses trois propriétés uniques, la GWD permet également de résoudre élégamment les problèmes de discontinuité de frontière et de forme carrée, indépendamment de la manière dont la boîte englobante est définie. Des expériences menées sur cinq jeux de données utilisant différents détecteurs démontrent l’efficacité de notre approche. Le code est disponible à l’adresse suivante : https://github.com/yangxue0827/RotationDetection et https://github.com/open-mmlab/mmrotate.