Amélioration des Transformers vidéo pour la compréhension des actions grâce à l'entraînement assisté par les VLM

En raison de leur capacité à extraire des plongements vidéo spatio-temporels pertinents, les Transformers visuels (ViTs) sont actuellement les modèles les mieux performants pour la compréhension des actions dans les vidéos. Cependant, leur généralisation sur différents domaines ou ensembles de données est quelque peu limitée. En revanche, les modèles visuels-linguistiques (VLMs) ont démontré une performance de généralisation exceptionnelle, mais ils ne sont actuellement pas capables de traiter des vidéos. Par conséquent, ils ne peuvent pas extraire les motifs spatio-temporels cruciaux pour la compréhension des actions. Dans cet article, nous proposons le cadre à quatre niveaux d'invocation (Four-tiered Prompts, FTP) qui tire parti des forces complémentaires des ViTs et des VLMs. Nous conservons la forte capacité de représentation spatio-temporelle des ViTs, mais améliorons l'encodage visuel pour qu'il soit plus complet et général en l'alignant avec les sorties des VLMs. Le cadre FTP ajoute quatre processeurs de caractéristiques qui se concentrent sur des aspects spécifiques des actions humaines dans les vidéos : catégorie d'action, composants d'action, description d'action et informations contextuelles. Les VLMs ne sont utilisés que pendant l'entraînement, et l'inférence entraîne un coût de calcul minimal. Notre approche offre constamment des performances de pointe. Par exemple, nous obtenons une précision top-1 remarquable de 93,8 % sur Kinetics-400 et 83,4 % sur Something-Something V2, surpassant VideoMAEv2 respectivement de 2,8 % et 2,6 %.