HyperAIHyperAI
il y a 9 jours

Réseaux hiérarchiques de relations conditionnelles pour la réponse aux questions sur les vidéos

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran
Réseaux hiérarchiques de relations conditionnelles pour la réponse aux questions sur les vidéos
Résumé

La question-réponse vidéo (VideoQA) est un défi car elle exige une capacité de modélisation permettant d’extraire des éléments visuels dynamiques et des relations éloignées, puis de les associer à des concepts linguistiques. Nous introduisons une unité neurale réutilisable et générale, appelée Réseau de Relations Conditionnelles (CRN), qui sert de bloc de construction pour concevoir des architectures plus sophistiquées afin de représenter et raisonner sur des vidéos. Le CRN prend en entrée un tableau d’objets tensoriels ainsi qu’une caractéristique conditionnelle, et calcule un tableau d’objets encodés en sortie. La conception du modèle devient alors une opération simple consistant à répliquer, réorganiser et empiler ces unités réutilisables, adaptées à diverses modalités et informations contextuelles. Ce design permet ainsi des raisonnements relationnels d’ordre supérieur et des inférences en plusieurs étapes. L’architecture résultante pour la VideoQA est une hiérarchie de CRN dont les branches représentent des sous-videos ou des extraits, tous partageant la même question comme condition contextuelle. Nos évaluations sur des jeux de données bien connus ont atteint de nouveaux résultats SoTA (state-of-the-art), démontrant l’impact de la conception d’une unité de raisonnement générale dans des domaines complexes tels que la VideoQA.