OadTR : Détection en ligne des actions avec des transformateurs

Les approches les plus récentes pour la détection en ligne d'actions tendent à utiliser des Réseaux de Neurones Récurrents (RNN) afin de capturer la structure temporelle à long terme. Cependant, les RNN souffrent de problèmes de non-parallélisme et d'effacement du gradient, ce qui rend leur optimisation difficile. Dans cet article, nous proposons un nouveau cadre encodeur-décodeur basé sur les Transformers, nommé OadTR, pour résoudre ces problèmes. L'encodeur, associé à un jeton de tâche, vise à capturer les relations et les interactions globales entre les observations historiques. Le décodeur extrait des informations auxiliaires en agrégant les représentations anticipées des clips futurs. Ainsi, OadTR peut reconnaître les actions actuelles en encodant simultanément les informations historiques et en prédiction le contexte futur. Nous évaluons de manière extensive le OadTR proposé sur trois jeux de données difficiles : HDD, TVSeries et THUMOS14. Les résultats expérimentaux montrent que OadTR atteint des vitesses d'entraînement et d'inférence supérieures aux approches actuelles basées sur les RNN, et surpassent significativement les méthodes de pointe en termes de mAP et mcAP. Le code est disponible à l'adresse suivante : https://github.com/wangxiang1230/OadTR.