HyperAIHyperAI

Command Palette

Search for a command to run...

Graphes de scène spatio-temporels (2,5+1)D pour la réponse aux questions sur les vidéos

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

Résumé

Les approches basées sur les graphes de scène spatio-temporels pour les tâches de raisonnement vidéo, telles que la réponse aux questions vidéo (QA), construisent généralement un tel graphe pour chaque trame de la vidéo. Ces méthodes négligent souvent le fait que les vidéos sont essentiellement des séquences de vues 2D d’événements se déroulant dans un espace 3D, et que les sémantiques de la scène 3D peuvent donc être conservées d’une trame à l’autre. En exploitant cette observation, nous proposons une représentation de graphe de scène (2,5+1)D afin de mieux capturer les flux d’informations spatio-temporelles à l’intérieur des vidéos. Plus précisément, nous construisons d’abord un graphe de scène 2,5D (pseudo-3D) en transformant chaque trame 2D afin de lui attribuer une structure 3D inférée, à l’aide d’un module de transformation 2D vers 3D disponible en tant que solution existante. Ensuite, nous enregistrons les trames vidéo dans un espace spatio-temporel partagé (2,5+1)D, et nous ancrions chaque graphe de scène 2D dans cet espace. Ce graphe (2,5+1)D est ensuite divisé en deux sous-graphes : un sous-graphe statique et un sous-graphe dynamique, correspondant respectivement à des objets qui, dans le monde réel, restent généralement immobiles ou en mouvement. Les nœuds du sous-graphe dynamique sont enrichis par des caractéristiques de mouvement capturant leurs interactions avec les autres nœuds du graphe. Ensuite, pour la tâche de réponse aux questions vidéo, nous présentons une nouvelle pipeline de raisonnement basée sur les transformateurs, qui intègre le graphe (2,5+1)D dans un espace latent hiérarchique spatio-temporel, où les sous-graphes et leurs interactions sont modélisés à différentes granularités. Pour démontrer l’efficacité de notre approche, nous menons des expériences sur les jeux de données NExT-QA et AVSD-QA. Nos résultats montrent que notre représentation (2,5+1)D permet un entraînement et une inférence plus rapides, tandis que notre modèle hiérarchique obtient des performances supérieures à l’état de l’art sur la tâche de réponse aux questions vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Graphes de scène spatio-temporels (2,5+1)D pour la réponse aux questions sur les vidéos | Articles | HyperAI