Transformers vidéo pour régions d'objets

Récemment, les transformateurs vidéo ont connu un grand succès dans la compréhension vidéo, surpassant les performances des réseaux de neurones convolutifs (CNN) ; toutefois, les modèles de transformateurs vidéo existants ne modélisent pas explicitement les objets, bien que ceux-ci soient essentiels pour reconnaître les actions. Dans ce travail, nous présentons Object-Region Video Transformers (ORViT), une approche centrée sur les objets qui étend les couches de transformateur vidéo par un bloc intégrant directement des représentations d’objets. L’idée centrale consiste à fusionner des représentations centrées sur les objets dès les premières couches et à les propager à travers les couches du transformateur, influençant ainsi les représentations spatio-temporelles à travers tout le réseau. Notre bloc ORViT comporte deux flux au niveau des objets : un flux d’apparence et un flux de dynamique. Dans le flux d’apparence, un module d’attention « Object-Region » applique une attention self sur les patches et les régions d’objets. Ainsi, les régions visuelles d’objets interagissent avec les tokens de patches uniformes, enrichissant ces derniers d’informations contextuelles relatives aux objets. Nous modélisons par ailleurs la dynamique des objets via un module distinct « Object-Dynamics », qui capture les interactions de trajectoires, et démontrons comment intégrer les deux flux. Nous évaluons notre modèle sur quatre tâches et cinq jeux de données : reconnaissance d’actions composées et à faible nombre d’exemples sur SomethingElse, détection d’actions spatio-temporelles sur AVA, et reconnaissance standard d’actions sur Something-Something V2, Diving48 et Epic-Kitchen100. Nous montrons une amélioration significative des performances sur toutes les tâches et jeux de données considérés, démontrant ainsi la valeur d’un modèle qui intègre des représentations d’objets dans une architecture de transformateur. Pour accéder au code et aux modèles pré-entraînés, rendez-vous sur la page du projet à l’adresse suivante : \url{https://roeiherz.github.io/ORViT/}