il y a 6 mois

Résumé

Notre objectif dans ce travail est la classification fine des actions dans des vidéos non coupées, où les actions peuvent être étendues dans le temps ou ne durer que quelques cadres. Nous formulons ce problème sous la forme d’un mécanisme de requête-réponse, où chaque requête pose une question particulière et dispose d’un ensemble de labels de réponse propre. Nous apportons les quatre contributions suivantes : (I) Nous proposons un nouveau modèle — le Réseau de requêtes temporelles (Temporal Query Network, TQN) — qui permet la fonctionnalité requête-réponse et une compréhension structurée des actions fines. Ce modèle met l’attention sur les segments pertinents pour chaque requête grâce à un mécanisme d’attention temporelle, et peut être entraîné à l’aide uniquement des étiquettes associées à chaque requête. (ii) Nous proposons une nouvelle méthode — la mise à jour stochastique de la banque de caractéristiques — pour entraîner un réseau sur des vidéos de longueurs variées, en utilisant un échantillonnage dense nécessaire pour répondre aux requêtes fines. (iii) Nous comparons le TQN à d’autres architectures et à des méthodes de supervision par texte, et analysons leurs avantages et inconvénients. Enfin, (iv) nous évaluons de manière approfondie notre méthode sur les benchmarks FineGym et Diving48 pour la classification fine des actions, et surpassons l’état de l’art en n’utilisant que des caractéristiques RGB.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Réseaux de requêtes temporelles pour la compréhension fine des vidéos | Articles | HyperAI

Command Palette

Réseaux de requêtes temporelles pour la compréhension fine des vidéos

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux de requêtes temporelles pour la compréhension fine des vidéos

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux de requêtes temporelles pour la compréhension fine des vidéos

Chuhan Zhang Ankush Gupta Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters