HyperAIHyperAI
il y a 9 jours

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos

Junwen Chen, Jie Zhu, Yu Kong
ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos
Résumé

Malgré les progrès significatifs réalisés dans la question-réponse vidéo (VideoQA), les méthodes actuelles peinent à traiter les questions exigeant un raisonnement causal ou temporel à travers les cadres. Cette limitation peut être attribuée à des représentations du mouvement imprécises. Nous introduisons un modèle de modélisation de la temporalité des actions (Action Temporality Modeling, ATM), fondé sur trois caractéristiques distinctives : (1) une réinterprétation du flux optique, en mettant en évidence que celui-ci est efficace pour capturer le raisonnement temporel à long terme ; (2) une formation de l’embedding visuel-textuel par apprentissage contrastif selon une approche centrée sur l’action, permettant d’obtenir des représentations d’actions améliorées dans les deux modalités, visuelle et textuelle ; (3) la prévention de la réponse à la question lorsqu’un clip vidéo est mélangé durant l’étape de fine-tuning, afin d’éviter les corrélations artificielles entre apparence et mouvement, et garantir ainsi un raisonnement temporel fidèle. Les expérimentations montrent que ATM surpasse les approches antérieures en termes de précision sur plusieurs tâches de VideoQA et démontre une capacité supérieure au raisonnement temporel véritable.

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos | Articles de recherche récents | HyperAI