HyperAIHyperAI

Command Palette

Search for a command to run...

Représentations agrégées temporelles pour la compréhension vidéo à longue portée

Fadime Sener Dipika Singhania Angela Yao

Résumé

La prédiction de l’avenir, en particulier dans les vidéos à long terme, nécessite une inférence basée sur les observations actuelles et passées. Dans ce travail, nous abordons les questions relatives à l’étendue temporelle, à l’échelle et au niveau d’abstraction sémantique à l’aide d’un cadre flexible d’agrégation temporelle multi-granulaire. Nous démontrons qu’il est possible d’atteindre l’état de l’art tant pour la prédiction de l’action suivante que pour l’anticipation dense en utilisant des techniques simples telles que le max-pooling et l’attention. Pour illustrer les capacités d’anticipation de notre modèle, nous menons des expériences sur les jeux de données Breakfast, 50Salads et EPIC-Kitchens, où nous obtenons des résultats à l’état de l’art. Avec des modifications minimales, notre modèle peut également être étendu à la segmentation vidéo et à la reconnaissance d’actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp