DyFADet : Agrégation Dynamique des Caractéristiques pour la Détection d'Actions Temporelles

Les modèles récents de détection d'actions temporelles (TAD) basés sur les réseaux de neurones sont fondamentalement limités dans leur capacité à extraire des représentations discriminantes et à modéliser des instances d'actions de différentes longueurs à partir de scènes complexes en utilisant des têtes de détection à poids partagés. Inspirés par les succès obtenus dans les réseaux de neurones dynamiques, nous proposons dans cet article un nouveau module d'agrégation de caractéristiques dynamiques (DFA) capable d'adapter simultanément les poids du noyau et les champs récepteurs à différents instants. Grâce au DFA, la couche d'encodeur dynamique proposée agrège les caractéristiques temporelles au sein des plages horaires des actions et garantit la discriminabilité des représentations extraites. De plus, l'utilisation du DFA permet le développement d'une tête de détection TAD dynamique (DyHead), qui agrège de manière adaptative les caractéristiques multi-échelles avec des paramètres ajustés et des champs récepteurs appris, améliorant ainsi la détection d'instances d'actions aux plages horaires variées dans les vidéos. Avec la couche d'encodeur proposée et le DyHead, un nouveau modèle TAD dynamique, DyFADet, obtient des performances prometteuses sur une série de benchmarks TAD difficiles, notamment HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment Queries V1.0 et FineAction. Le code est disponible sur https://github.com/yangle15/DyFADet-pytorch.