DiffusionVID : Débruitage des boîtes englobantes d'objets par conditionnement spatio-temporel pour la détection d'objets dans les vidéos
Plusieurs détecteurs d'objets pour images fixes existants souffrent d'une dégradation de l'image dans les vidéos, notamment le flou de mouvement, le flou de mise au point de la caméra et l'occlusion partielle. Nous présentons DiffusionVID, un détecteur d'objets vidéo basé sur un modèle de diffusion, qui exploite une condition spatio-temporelle. Inspiré par les modèles de diffusion, DiffusionVID affine des boîtes aléatoires issues du bruit pour reconstruire les boîtes d'objets originales dans une séquence vidéo. Pour améliorer efficacement l'affinement de ces boîtes à partir des images dégradées présentes dans les vidéos, nous proposons trois approches novatrices : une architecture d'affinement en cascade, une conditionnement par ensemble central dynamique et un affinement par lot local. L'architecture d'affinement en cascade permet collectivement d'extraire efficacement des informations provenant des régions d'objets, tandis que le conditionnement par ensemble central dynamique améliore davantage la qualité de débruitage grâce à une guidance conditionnelle adaptative fondée sur un ensemble central spatio-temporel. L'affinement par lot local accroît significativement la vitesse d'affinement en tirant parti de la parallélisation GPU. Sur le benchmark standard et largement utilisé ImageNet-VID, notre DiffusionVID, utilisant les architectures de base ResNet-101 et Swin-Base, atteint respectivement 86,9 mAP à 46,6 FPS et 92,4 mAP à 27,0 FPS, démontrant ainsi des performances de pointe. À la connaissance des auteurs, il s'agit du premier détecteur d'objets vidéo basé sur un modèle de diffusion. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/sdroh1027/DiffusionVID.