HyperAIHyperAI
il y a 2 mois

Réseau d'Attention Hybride Dynamique-statique Contextuel pour l'Évaluation des Actions dans les Vidéos Longues

Zeng, Ling-An ; Hong, Fa-Ting ; Zheng, Wei-Shi ; Yu, Qi-Zhi ; Zeng, Wei ; Wang, Yao-Wei ; Lai, Jian-Huang
Réseau d'Attention Hybride Dynamique-statique Contextuel pour l'Évaluation des Actions dans les Vidéos Longues
Résumé

L'objectif de l'évaluation de la qualité des actions est d'attribuer une note aux vidéos sportives. Cependant, la plupart des travaux existants se concentrent uniquement sur les informations dynamiques des vidéos (c'est-à-dire, les informations de mouvement) et négligent les postures spécifiques que l'athlète adopte dans une vidéo, ce qui est crucial pour l'évaluation des actions dans les vidéos longues. Dans cette étude, nous présentons un nouveau réseau hybride contextuel à attention dynamique-statique (ACTION-NET) pour l'évaluation des actions dans les vidéos longues. Pour apprendre des représentations plus discriminantes des vidéos, nous ne nous contentons pas d'apprendre les informations dynamiques des vidéos, mais nous portons également une attention particulière aux postures statiques des athlètes détectés dans certains cadres, qui représentent la qualité de l'action à ces moments précis, grâce à l'architecture hybride dynamique-statique proposée. De plus, nous utilisons un module d'attention contextuel composé d'une unité de réseau convolutif graphique temporelle par instance et d'une unité d'attention pour chaque flux afin d'extraire des caractéristiques de flux plus robustes. L'unité de réseau convolutif graphique temporelle par instance explore les relations entre les instances, tandis que l'unité d'attention attribue un poids approprié à chaque instance. Enfin, nous combinons les caractéristiques des deux flux pour prédire le score final de la vidéo, supervisé par les notes réelles fournies par des experts. Par ailleurs, nous avons collecté et annoté un nouveau jeu de données de gymnastique rythmique contenant des vidéos de quatre types différents de routines gymniques pour évaluer l'évaluation de la qualité des actions dans les vidéos longues. Des résultats expérimentaux approfondis confirment l'efficacité de notre méthode proposée, qui surpassent les approches connexes. Les codes source et le jeu de données sont disponibles à l'adresse \url{https://github.com/lingan1996/ACTION-NET}.