Deux têtes valent mieux qu’une : raisonnement graphique amélioré par hypergraphe pour la rationalisation d’événements visuels

Même à partir d'une image statique, les humains sont capables de raisonner sur diverses descriptions causales et effectives visuelles, couvrant des scénarios antérieurs, présents et futurs, ainsi que des situations allant au-delà de l'image donnée. Toutefois, il est difficile pour les modèles d'accomplir une telle tâche — le raisonnement visuel des événements — en raison des limitations temporelles et spatiales. À cette fin, nous proposons un nouveau modèle multimodal, appelé Hypergraph-Enhanced Graph Reasoning. Ce modèle représente d'abord les contenus provenant de la même modalité sous forme de graphe sémantique, afin d'extraire les relations intra-modales, ce qui permet de dépasser les contraintes du domaine spatial. Ensuite, nous introduisons une amélioration par attention auto-associative sur graphe. D'une part, cela permet aux représentations de graphe sémantique issues de différentes modalités de s'améliorer mutuellement, capturant ainsi les relations inter-modales le long d'une ligne temporelle. D'autre part, elle exploite les hypergraphes multimodaux que nous avons construits à différents instants pour renforcer les représentations individuelles de graphe sémantique, brisant ainsi les limites du domaine temporel. Notre méthode illustre le principe selon lequel « deux têtes valent mieux qu'une », au sens où les représentations de graphe sémantique, aidées par le mécanisme d'amélioration proposé, sont plus robustes que celles obtenues sans ce mécanisme. Enfin, nous réprojectons ces représentations et utilisons leurs résultats pour générer des descriptions textuelles causales et effectives. Les résultats expérimentaux montrent que notre modèle atteint des performances significativement supérieures par rapport aux méthodes de pointe existantes.