il y a 6 mois

Résumé

Malgré les progrès significatifs réalisés dans la question-réponse vidéo (VideoQA), les méthodes actuelles peinent à traiter les questions exigeant un raisonnement causal ou temporel à travers les cadres. Cette limitation peut être attribuée à des représentations du mouvement imprécises. Nous introduisons un modèle de modélisation de la temporalité des actions (Action Temporality Modeling, ATM), fondé sur trois caractéristiques distinctives : (1) une réinterprétation du flux optique, en mettant en évidence que celui-ci est efficace pour capturer le raisonnement temporel à long terme ; (2) une formation de l’embedding visuel-textuel par apprentissage contrastif selon une approche centrée sur l’action, permettant d’obtenir des représentations d’actions améliorées dans les deux modalités, visuelle et textuelle ; (3) la prévention de la réponse à la question lorsqu’un clip vidéo est mélangé durant l’étape de fine-tuning, afin d’éviter les corrélations artificielles entre apparence et mouvement, et garantir ainsi un raisonnement temporel fidèle. Les expérimentations montrent que ATM surpasse les approches antérieures en termes de précision sur plusieurs tâches de VideoQA et démontre une capacité supérieure au raisonnement temporel véritable.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Junwen Chen Jie Zhu Yu Kong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Junwen Chen Jie Zhu Yu Kong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos | Articles | HyperAI

Command Palette

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos

Junwen Chen Jie Zhu Yu Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos

Junwen Chen Jie Zhu Yu Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ATM : Modélisation de la temporalité des actions pour la réponse aux questions sur les vidéos

Junwen Chen Jie Zhu Yu Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters