il y a 17 jours

Co-entraînement du Transformer avec des vidéos et des images améliore la reconnaissance d’actions

Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha

Résumé

Dans la reconnaissance d’actions, les modèles sont généralement pré-entraînés sur des tâches de reconnaissance d’objets à partir d’images, comme ImageNet, puis affinés sur des vidéos pour la reconnaissance d’actions cibles. Cette approche a obtenu de bons résultats empiriques, en particulier avec les architectures récentes basées sur les transformeurs pour les vidéos. Bien que de nombreuses recherches récentes visent à concevoir des architectures de transformeurs plus avancées pour la reconnaissance d’actions, peu d’efforts ont été consacrés à la manière d’entraîner ces transformeurs vidéo. Dans ce travail, nous explorons plusieurs paradigmes d’entraînement et présentons deux observations importantes. Premièrement, les transformeurs vidéo bénéficient d’un entraînement conjoint sur des jeux de données vidéo diversifiés et des espaces d’étiquetage variés (par exemple, Kinetics est centré sur l’apparence, tandis que SomethingSomething met l’accent sur le mouvement). Deuxièmement, en poursuivant l’entraînement conjoint avec des images (traitées comme des vidéos à une seule trame), les transformeurs vidéo apprennent des représentations vidéo encore plus performantes. Nous désignons cette approche par Co-entraînement des vidéos et des images pour la reconnaissance d’actions (CoVeR). En particulier, lorsque pré-entraîné sur ImageNet-21K avec l’architecture TimeSFormer, CoVeR améliore la précision Top-1 sur Kinetics-400 de 2,4 %, sur Kinetics-600 de 2,3 %, et sur SomethingSomething-v2 de 2,3 %. Lorsqu’il est pré-entraîné sur des jeux de données d’images de plus grande échelle, suivant les méthodes de pointe précédentes, CoVeR atteint les meilleurs résultats sur Kinetics-400 (87,2 %), Kinetics-600 (87,9 %), Kinetics-700 (79,8 %), SomethingSomething-v2 (70,9 %) et Moments-in-Time (46,1 %), avec un simple transformeur spatio-temporel pour vidéos.