Modélisation temporelle tardive dans les architectures 3D CNN avec BERT pour la reconnaissance d'actions

Dans ce travail, nous combinons la convolution 3D avec une modélisation temporelle tardive pour la reconnaissance d’actions. À cette fin, nous remplaçons la couche classique de pooling moyen global temporel (TGAP) située à la fin de l’architecture de convolution 3D par une couche d’encodage bidirectionnel à base de Transformers (BERT), afin d’exploiter de manière plus efficace les informations temporelles grâce au mécanisme d’attention de BERT. Nous démontrons que ce remplacement améliore les performances de nombreuses architectures populaires de convolution 3D pour la reconnaissance d’actions, notamment ResNeXt, I3D, SlowFast et R(2+1)D. En outre, nous obtenons des résultats état-de-l’art sur les deux jeux de données HMDB51 et UCF101, avec une précision top-1 de 85,10 % et 98,69 % respectivement. Le code source est mis à disposition publiquement.