HyperAIHyperAI
il y a 11 jours

PDAN : Réseau d'attention dilatée en pyramide pour la détection d'actions

{Francois Bremond, Gianpiero Francesca, Lorenzo Garattoni, Luca Minciullo, Srijan Das, Rui Dai}
PDAN : Réseau d'attention dilatée en pyramide pour la détection d'actions
Résumé

La gestion d’informations temporelles longues et complexes constitue un défi majeur pour les tâches de détection d’actions. Ce défi est encore aggravé par la forte densité des actions présentes dans les vidéos non coupées. Les méthodes précédentes de détection d’actions échouent à sélectionner efficacement les informations temporelles clés dans les vidéos longues. À cet effet, nous proposons la Couche d’Attention Dilatée (Dilated Attention Layer, DAL). Contrairement à la couche de convolution temporelle traditionnelle, la DAL attribue des poids d’attention aux cadres locaux situés dans le noyau, ce qui lui permet d’apprendre des représentations locales plus pertinentes au fil du temps. Par ailleurs, nous introduisons le Réseau Pyramid d’Attention Dilatée (Pyramid Dilated Attention Network, PDAN), fondé sur la DAL. Grâce à l’emploi de plusieurs couches DAL avec des taux de dilatation différents, PDAN est capable de modéliser simultanément les relations temporelles à court et à long terme en se concentrant sur des segments locaux aux champs réceptifs temporels faibles et élevés. Cette propriété permet à PDAN de gérer efficacement les relations temporelles complexes entre différentes instances d’actions dans des vidéos longues non coupées. Pour valider l’efficacité et la robustesse de notre méthode, nous l’évaluons sur trois jeux de données fortement annotés et à plusieurs étiquettes : MultiTHUMOS, Charades et le jeu de données Toyota Smarthome Untrimmed (TSU). Les résultats montrent que PDAN surpassent toutes les méthodes de l’état de l’art précédentes sur ces trois jeux de données.

PDAN : Réseau d'attention dilatée en pyramide pour la détection d'actions | Articles de recherche récents | HyperAI