Un réseau de mémoire lecture-écriture pour la compréhension des histoires de films

Nous proposons un nouveau modèle de réseau de mémoire nommé Réseau de Mémoire Lecture-Écriture (RWMN) pour effectuer des tâches de questions-réponses dans le cadre d'une compréhension à grande échelle et multimodale des histoires de films. L'aspect clé de notre modèle RWMN est la conception du réseau de lecture et du réseau d'écriture, qui comprennent plusieurs couches convolutives, permettant ainsi aux opérations de lecture et d'écriture en mémoire d'avoir une grande capacité et flexibilité. Alors que les modèles existants de réseaux augmentés par la mémoire traitent chaque emplacement mémoire comme un bloc indépendant, l'utilisation de CNNs multicouches dans notre modèle permet à celui-ci de lire et d'écrire des cellules mémoire séquentielles par groupes, ce qui est plus pertinent pour représenter une histoire séquentielle car les blocs mémoire adjacents ont souvent des corrélations fortes. Pour l'évaluation, nous appliquons notre modèle à l'ensemble des six tâches du benchmark MovieQA, obtenant les meilleures précisions sur plusieurs tâches, notamment sur la tâche de questions-réponses visuelles. Notre modèle montre un potentiel pour mieux comprendre non seulement le contenu de l'histoire, mais aussi des informations plus abstraites, telles que les relations entre les personnages et les raisons de leurs actions.