HyperAIHyperAI
il y a 15 jours

Réseau de consensus intermodal pour la localisation temporelle d'actions sous supervision faible

Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng
Réseau de consensus intermodal pour la localisation temporelle d'actions sous supervision faible
Résumé

La localisation temporelle d’actions faiblement supervisée (WS-TAL) est une tâche difficile visant à localiser des instances d’actions dans une vidéo donnée, en se basant uniquement sur une supervision catégorielle au niveau de la vidéo. Dans les travaux antérieurs, à la fois les caractéristiques d’apparence et celles du mouvement sont utilisées, mais elles ne sont pas exploitées de manière adéquate : une simple concaténation ou une fusion au niveau des scores est généralement appliquée. Dans ce travail, nous affirmons que les caractéristiques extraites à partir d’un extracteur pré-entraîné, tel que I3D, ne sont pas spécifiques à la tâche WS-TAL, et qu’une recalibration des caractéristiques s’impose afin de réduire les redondances d’informations non pertinentes pour la tâche. Ainsi, nous proposons un réseau de consensus cross-modale (CO²-Net) pour résoudre ce problème. Dans CO²-Net, nous introduisons principalement deux modules de consensus cross-modale (CCM) identiques, qui mettent en œuvre un mécanisme d’attention cross-modale afin d’éliminer les redondances d’informations non pertinentes, en exploitant les informations globales provenant de la modalité principale et les informations locales cross-modales issues de la modalité auxiliaire. De plus, nous considérons les poids d’attention issus de chaque CCM comme des cibles pseudo-labels pour les poids d’attention de l’autre CCM, afin de garantir la cohérence entre les prédictions issues des deux CCM, établissant ainsi un mécanisme d’apprentissage mutuel. Enfin, nous menons des expérimentations approfondies sur deux jeux de données couramment utilisés pour la localisation temporelle d’actions, à savoir THUMOS14 et ActivityNet1.2, afin de valider notre méthode, qui atteint des résultats de pointe. Les résultats expérimentaux démontrent que notre module de consensus cross-modale proposé permet de produire des caractéristiques plus représentatives pour la localisation temporelle d’actions.

Réseau de consensus intermodal pour la localisation temporelle d'actions sous supervision faible | Articles de recherche récents | HyperAI