HyperAIHyperAI
il y a 11 jours

BasicTAD : une base impressionnante uniquement en RGB pour la détection temporelle d’actions

Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
BasicTAD : une base impressionnante uniquement en RGB pour la détection temporelle d’actions
Résumé

La détection d’actions temporelles (TAD) est largement étudiée dans la communauté du traitement des vidéos, en s’inspirant généralement du pipeline de détection d’objets dans les images. Toutefois, les approches TAD sont souvent caractérisées par des architectures complexes, telles que l’extraction de caractéristiques à deux voies, l’entraînement en plusieurs étapes, des modèles temporels sophistiqués ou la fusion de contexte global. Dans cet article, nous ne cherchons pas à introduire de nouvelle technique pour la TAD. À la place, nous proposons d’étudier une base simple, directe, mais fondamentale, compte tenu de la complexité actuelle des architectures et de l’efficacité limitée des méthodes existantes en TAD. Dans notre base simple (appelée BasicTAD), nous décomposons le pipeline TAD en plusieurs composants essentiels : l’échantillonnage des données, la conception du modèle principal (backbone), la construction du « cou neck » et la conception de la tête de détection. Nous examinons de manière approfondie les techniques existantes dans chacun de ces composants, et surtout, nous réalisons un entraînement end-to-end sur l’ensemble du pipeline, grâce à la simplicité de notre architecture. En conséquence, cette base simple, BasicTAD, atteint un résultat remarquable et en temps réel, basé uniquement sur des données RGB, et se rapproche fortement des méthodes les plus avancées utilisant des entrées à deux voies. Par ailleurs, nous améliorons encore BasicTAD en préservant davantage d’informations spatiales et temporelles dans la représentation du réseau (appelée PlusTAD). Les résultats expérimentaux montrent que PlusTAD est très efficace et surpassent significativement les méthodes antérieures sur les jeux de données THUMOS14 et FineAction. En outre, nous réalisons une analyse visuelle approfondie et une analyse des erreurs de notre méthode, afin d’offrir de nouvelles perspectives sur les défis de la TAD. Notre approche peut servir de base solide pour les recherches futures en détection d’actions temporelles. Le code et les modèles seront publiés à l’adresse suivante : https://github.com/MCG-NJU/BasicTAD.

BasicTAD : une base impressionnante uniquement en RGB pour la détection temporelle d’actions | Articles de recherche récents | HyperAI