il y a 2 mois

ENTRER : Raisonnement Interprétable Basé sur les Événements pour VideoQA

Ayyubi, Hammad ; Liu, Junzhang ; Asgarov, Ali ; Hakim, Zaber Ibn Abdul ; Sarker, Najibul Haque ; Wang, Zhecan ; Tang, Chia-Wei ; Alomari, Hani ; Atabuzzaman, Md. ; Lin, Xudong ; Dyava, Naveen Reddy ; Chang, Shih-Fu ; Thomas, Chris

Voir les détails de l'article

ENTRER : Raisonnement Interprétable Basé sur les Événements pour VideoQA

Résumé

Dans cet article, nous présentons ENTER, un système de réponse à des questions sur vidéo (VideoQA) interprétable basé sur des graphes d'événements. Les graphes d'événements transforment les vidéos en représentations graphiques, où les événements vidéo constituent les nœuds et les relations entre événements (temporelles, causales ou hiérarchiques) forment les arêtes. Cette représentation structurée offre de nombreux avantages : 1) une réponse interprétable aux questions sur vidéo grâce au code généré qui analyse le graphe d'événements ; 2) l'intégration d'informations visuelles contextuelles dans le processus de raisonnement (génération de code) via les graphes d'événements ; 3) une réponse robuste aux questions sur vidéo grâce à la mise à jour itérative hiérarchique des graphes d'événements. Les systèmes VideoQA interprétables existants sont souvent top-down, négligeant les informations visuelles de bas niveau lors de la génération du plan de raisonnement, et sont fragiles. Bien que les approches bottom-up produisent des réponses à partir de données visuelles, elles manquent d'interprétabilité. Les résultats expérimentaux sur NExT-QA, IntentQA et EgoSchema montrent non seulement que notre méthode surpassent les approches top-down existantes tout en obtenant des performances compétitives par rapport aux approches bottom-up, mais plus important encore, elle offre une supériorité en termes d'interprétabilité et d'explicabilité dans le processus de raisonnement.