il y a 6 mois

Résumé

La question-réponse vidéo constitue une tâche difficile, exigeant que les agents soient capables de comprendre des contenus vidéo riches et de mener des raisonnements spatio-temporels. Toutefois, les méthodes existantes basées sur les graphes peinent à effectuer un raisonnement multi-étapes efficacement, en négligeant deux propriétés fondamentales de la question-réponse vidéo : (1) Pour une même vidéo, différentes questions peuvent nécessiter un nombre variable de segments vidéo ou d’objets pour parvenir à une réponse via un raisonnement relationnel ; (2) Au cours du raisonnement, les caractéristiques d’apparence et celles du mouvement présentent une interdépendance complexe, étant à la fois corrélées et complémentaires. À partir de ces observations, nous proposons une Unité de Raisonnement par Graphes Visuels Dual (DualVGR), capable de raisonner sur les vidéos de manière end-to-end. La première contribution de notre DualVGR réside dans la conception d’un Module d’Élimination de Requêtes (Query Punishment Module), explicite, qui filtre progressivement les caractéristiques visuelles non pertinentes à travers plusieurs cycles de raisonnement. La seconde contribution est le réseau d’attention graphique à multiples vues basé sur la vidéo, conçu pour capturer les relations entre les caractéristiques d’apparence et celles du mouvement. Notre architecture DualVGR atteint des performances de pointe sur les jeux de données de référence MSVD-QA et SVQA, et obtient des résultats compétitifs sur le jeu de données MSRVTT-QA. Le code est disponible à l’adresse suivante : https://github.com/MMIR/DualVGR-VideoQA.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters