Une étude empirique de la détection d’actions temporelles bout-en-bout

La détection d’actions temporelles (TAD) est une tâche importante mais difficile dans le domaine du traitement des vidéos. Elle vise à prédire simultanément l’étiquette sémantique et l’intervalle temporel de chaque instance d’action dans une vidéo non tronquée. Contrairement à l’apprentissage end-to-end, la plupart des méthodes existantes adoptent un paradigme d’apprentissage « head-only », où l’encodeur vidéo est pré-entraîné pour la classification d’actions, et seul le module de détection (detection head) associé à cet encodeur est optimisé pour la TAD. L’effet de l’apprentissage end-to-end n’a pas encore été systématiquement évalué. De plus, il manque une étude approfondie sur le compromis entre efficacité et précision dans le cadre de la TAD end-to-end. Dans cet article, nous présentons une étude empirique de la détection d’actions temporelles end-to-end. Nous validons l’avantage de l’apprentissage end-to-end par rapport au paradigme head-only, observant une amélioration de performance pouvant atteindre 11 %. En outre, nous analysons l’impact de plusieurs choix architecturaux influençant à la fois la performance et la vitesse de la TAD, notamment le design du detection head, l’encodeur vidéo et la résolution des vidéos d’entrée. À partir de ces observations, nous proposons un détecteur de référence à résolution moyenne, qui atteint l’état de l’art parmi les méthodes end-to-end tout en étant plus de 4 fois plus rapide. Nous espérons que ce travail pourra servir de guide pour l’apprentissage end-to-end et inspirer de futures recherches dans ce domaine. Le code et les modèles sont disponibles à l’adresse suivante : \url{https://github.com/xlliu7/E2E-TAD}.