HyperAIHyperAI
il y a 12 jours

Réseau hiérarchique d'attention auto-associative pour la localisation d'actions dans les vidéos

{ Wen-Hsien Fang, Yie-Tarng Chen, Rizard Renanda Adhi Pramono}
Réseau hiérarchique d'attention auto-associative pour la localisation d'actions dans les vidéos
Résumé

Cet article présente un nouveau réseau hiérarchique à attention auto-associative (HISAN) destiné à la génération de tubes spatio-temporels pour la localisation d’actions dans les vidéos. L’essence de HISAN réside dans l’association d’un réseau neuronal convolutif à deux flux (CNN à deux flux) avec un mécanisme hiérarchique d’attention bidirectionnelle, composé de deux niveaux d’attention bidirectionnelle permettant de capturer efficacement à la fois les informations de dépendance temporelle à long terme et les informations contextuelles spatiales, afin d’améliorer la précision de la localisation d’actions. Par ailleurs, un algorithme de re-évaluation de séquence (SR) est employé pour résoudre le problème des scores de détection incohérents causés par des occlusions ou un bruit de fond complexe. En outre, une nouvelle stratégie de fusion est introduite, qui intègre non seulement les informations d’apparence et de mouvement issues du réseau à deux flux, mais aussi la salience du mouvement, afin de réduire l’impact du mouvement de caméra. Les expérimentations montrent que la méthode proposée atteint des performances compétitives par rapport aux approches de pointe en matière de précision de localisation et de reconnaissance d’actions sur les jeux de données largement utilisés UCF101-24 et J-HMDB.

Réseau hiérarchique d'attention auto-associative pour la localisation d'actions dans les vidéos | Articles de recherche récents | HyperAI