TransVOD : Détection d'objets vidéo en boucle complète à l'aide de transformateurs spatio-temporels

Le DETR (Detection Transformer) et le Deformable DETR ont été proposés afin d’éliminer la nécessité de nombreux composants conçus manuellement dans la détection d’objets, tout en offrant de bonnes performances comparables à celles des détecteurs complexes précédemment conçus à la main. Toutefois, leur efficacité dans le cadre de la détection d’objets en vidéo (Video Object Detection, VOD) n’a pas encore été suffisamment explorée. Dans cet article, nous présentons TransVOD, le premier système de détection d’objets en vidéo entièrement end-to-end basé sur une architecture Transformer spatio-temporelle. L’objectif principal de ce travail est de simplifier le pipeline de la VOD, en éliminant efficacement la nécessité de nombreux composants manuellement conçus pour l’agrégation des caractéristiques, tels que les modèles de flux optique ou les réseaux de relations. Par ailleurs, grâce à la conception des requêtes d’objets inspirée du DETR, notre méthode ne nécessite pas de méthodes de post-traitement complexes comme le Seq-NMS. Plus précisément, nous introduisons un Transformer temporel permettant d’agrégérer à la fois les requêtes d’objets spatiales et les mémoires de caractéristiques de chaque trame. Ce Transformer temporel se compose de deux composants : un encodeur de requêtes temporel (TQE) chargé de fusionner les requêtes d’objets, et un décodeur Transformer déformable temporel (TDTD) permettant d’obtenir les résultats de détection pour la trame courante. Ces innovations permettent d’améliorer significativement la performance du modèle de base déformable DETR, avec une augmentation de 3 % à 4 % en mAP sur le jeu de données ImageNet VID. Ensuite, nous proposons deux versions améliorées de TransVOD : TransVOD++ et TransVOD Lite. La première intègre des informations au niveau des objets via une convolution dynamique dans les requêtes d’objets, tandis que la seconde modélise l’intégralité d’un clip vidéo comme sortie, afin de réduire le temps d’inférence. Une analyse détaillée de ces trois modèles est fournie dans la partie expérimentale. En particulier, notre modèle TransVOD++ établit un nouveau record d’état de l’art en termes de précision sur ImageNet VID, atteignant 90,0 % de mAP. TransVOD Lite, quant à lui, réalise le meilleur compromis entre vitesse et précision, obtenant 83,7 % de mAP tout en fonctionnant à environ 30 FPS sur une seule carte GPU V100.