HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de requêtes temporelles pour la compréhension fine des vidéos

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

Notre objectif dans ce travail est la classification fine des actions dans des vidéos non coupées, où les actions peuvent être étendues dans le temps ou ne durer que quelques cadres. Nous formulons ce problème sous la forme d’un mécanisme de requête-réponse, où chaque requête pose une question particulière et dispose d’un ensemble de labels de réponse propre. Nous apportons les quatre contributions suivantes : (I) Nous proposons un nouveau modèle — le Réseau de requêtes temporelles (Temporal Query Network, TQN) — qui permet la fonctionnalité requête-réponse et une compréhension structurée des actions fines. Ce modèle met l’attention sur les segments pertinents pour chaque requête grâce à un mécanisme d’attention temporelle, et peut être entraîné à l’aide uniquement des étiquettes associées à chaque requête. (ii) Nous proposons une nouvelle méthode — la mise à jour stochastique de la banque de caractéristiques — pour entraîner un réseau sur des vidéos de longueurs variées, en utilisant un échantillonnage dense nécessaire pour répondre aux requêtes fines. (iii) Nous comparons le TQN à d’autres architectures et à des méthodes de supervision par texte, et analysons leurs avantages et inconvénients. Enfin, (iv) nous évaluons de manière approfondie notre méthode sur les benchmarks FineGym et Diving48 pour la classification fine des actions, et surpassons l’état de l’art en n’utilisant que des caractéristiques RGB.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de requêtes temporelles pour la compréhension fine des vidéos | Articles | HyperAI