HyperAIHyperAI

Command Palette

Search for a command to run...

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos

Junwen Chen Jie Zhu Yu Kong

Résumé

Malgré les progrès significatifs réalisés dans la question-réponse vidéo (VideoQA), les méthodes actuelles peinent à traiter les questions exigeant un raisonnement causal ou temporel à travers les cadres. Cette limitation peut être attribuée à des représentations du mouvement imprécises. Nous introduisons un modèle de modélisation de la temporalité des actions (Action Temporality Modeling, ATM), fondé sur trois caractéristiques distinctives : (1) une réinterprétation du flux optique, en mettant en évidence que celui-ci est efficace pour capturer le raisonnement temporel à long terme ; (2) une formation de l’embedding visuel-textuel par apprentissage contrastif selon une approche centrée sur l’action, permettant d’obtenir des représentations d’actions améliorées dans les deux modalités, visuelle et textuelle ; (3) la prévention de la réponse à la question lorsqu’un clip vidéo est mélangé durant l’étape de fine-tuning, afin d’éviter les corrélations artificielles entre apparence et mouvement, et garantir ainsi un raisonnement temporel fidèle. Les expérimentations montrent que ATM surpasse les approches antérieures en termes de précision sur plusieurs tâches de VideoQA et démontre une capacité supérieure au raisonnement temporel véritable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos | Articles | HyperAI