HyperAIHyperAI
il y a 17 jours

Réseaux de requêtes temporelles pour la compréhension fine des vidéos

Chuhan Zhang, Ankush Gupta, Andrew Zisserman
Réseaux de requêtes temporelles pour la compréhension fine des vidéos
Résumé

Notre objectif dans ce travail est la classification fine des actions dans des vidéos non coupées, où les actions peuvent être étendues dans le temps ou ne durer que quelques cadres. Nous formulons ce problème sous la forme d’un mécanisme de requête-réponse, où chaque requête pose une question particulière et dispose d’un ensemble de labels de réponse propre. Nous apportons les quatre contributions suivantes : (I) Nous proposons un nouveau modèle — le Réseau de requêtes temporelles (Temporal Query Network, TQN) — qui permet la fonctionnalité requête-réponse et une compréhension structurée des actions fines. Ce modèle met l’attention sur les segments pertinents pour chaque requête grâce à un mécanisme d’attention temporelle, et peut être entraîné à l’aide uniquement des étiquettes associées à chaque requête. (ii) Nous proposons une nouvelle méthode — la mise à jour stochastique de la banque de caractéristiques — pour entraîner un réseau sur des vidéos de longueurs variées, en utilisant un échantillonnage dense nécessaire pour répondre aux requêtes fines. (iii) Nous comparons le TQN à d’autres architectures et à des méthodes de supervision par texte, et analysons leurs avantages et inconvénients. Enfin, (iv) nous évaluons de manière approfondie notre méthode sur les benchmarks FineGym et Diving48 pour la classification fine des actions, et surpassons l’état de l’art en n’utilisant que des caractéristiques RGB.