HyperAIHyperAI
il y a 2 mois

Réseau de Mémoire avec Attention Progressive pour le Questionnement sur l’Intrigue des Films

Junyeong Kim; Minuk Ma; Kyungsu Kim; Sungjin Kim; Chang D. Yoo
Réseau de Mémoire avec Attention Progressive pour le Questionnement sur l’Intrigue des Films
Résumé

Ce papier propose le réseau de mémoire à attention progressive (PAMN) pour la réponse aux questions sur les histoires de films (QA). La réponse aux questions sur les histoires de films est plus complexe que la VQA (Visual Question Answering) sous deux aspects : (1) identifier les parties temporelles pertinentes pour répondre à la question est difficile, car les films sont généralement d'une durée supérieure à une heure, (2) elle implique à la fois des vidéos et des sous-titres, où différentes questions nécessitent différentes modalités pour inférer la réponse. Pour surmonter ces défis, le PAMN intègre trois caractéristiques principales : (1) un mécanisme d'attention progressive qui utilise des indices provenant de la question et de la réponse pour progressivement éliminer les parties temporelles non pertinentes dans la mémoire, (2) une fusion modale dynamique qui détermine de manière adaptative la contribution de chaque modalité pour répondre à la question actuelle, et (3) un schéma de réponse par correction de croyance qui corrige successivement le score de prédiction sur chaque réponse candidate. Les expérimentations menées sur des ensembles de données de référence publiquement disponibles, MovieQA et TVQA, montrent que chaque caractéristique contribue à notre architecture QA pour les histoires de films, le PAMN, et améliore les performances pour atteindre un résultat d'état de l'art. Une analyse qualitative visuelle du mécanisme d'inférence du PAMN est également fournie.

Réseau de Mémoire avec Attention Progressive pour le Questionnement sur l’Intrigue des Films | Articles de recherche récents | HyperAI