Alignement RoI temporel pour la reconnaissance d'objets vidéo

La détection d'objets dans les vidéos est un défi particulièrement marqué en présence de dégradation de l'apparence dans certaines trames. Il est donc naturel de regrouper des informations temporelles provenant d'autres trames de la même vidéo afin de renforcer l'information disponible dans la trame courante. Toutefois, RoI Align, l'une des opérations centrales des détecteurs vidéo, continue d'extraire des caractéristiques à partir d'une carte de caractéristiques à une seule trame pour les propositions, ce qui entraîne une absence d'information temporelle dans les caractéristiques RoI extraites. Dans ce travail, en tenant compte du fait que les caractéristiques d'une même instance d'objet sont très similaires à travers les trames d'une vidéo, nous proposons un nouvel opérateur, Temporal RoI Align, qui exploite la similarité des caractéristiques pour extraire des informations provenant des cartes de caractéristiques d'autres trames afin de traiter les propositions de la trame courante. L'opérateur Temporal RoI Align permet ainsi d'extraire des informations temporelles issues de l'ensemble de la vidéo pour les propositions. Nous l'avons intégré dans des détecteurs vidéo à une seule trame ainsi que dans d'autres détecteurs vidéo d'avant-garde, et avons mené des expériences quantitatives qui démontrent que l'opérateur proposé améliore de manière constante et significative les performances. En outre, le Temporal RoI Align proposé peut également être appliqué à la segmentation d'instances vidéo. Le code source est disponible à l'adresse suivante : https://github.com/open-mmlab/mmtracking