Zwei Köpfe sind besser als einer: Hypergraph-Verstärktes Graphen-Reasoning für visuelle Ereignis-Ratiocination

Selbst bei einem statischen Bild können Menschen ratiokinieren, verschiedene visuelle Ursache-Wirkungs-Beziehungen vor, während und nach dem abgebildeten Ereignis sowie darüber hinaus zu erfassen. Für Modelle ist diese Aufgabe – die visuelle Ereignis-Ratiokination – jedoch aufgrund der Beschränkungen in Zeit und Raum herausfordernd. Hierzu stellen wir ein neuartiges multimodales Modell vor: Hypergraph-Enhanced Graph Reasoning. Zunächst repräsentiert es die Inhalte derselben Modality als semantischen Graphen und erschließt dabei die intra-modale Beziehung, wodurch die räumlichen Beschränkungen überwunden werden. Anschließend führen wir die Graph Self-Attention Enhancement ein. Einerseits ermöglicht dies eine gegenseitige Stärkung der semantischen Graphendarstellungen verschiedener Modalitäten und erfasst die inter-modale Beziehung entlang der Zeitachse. Andererseits nutzt sie unsere erstellten multimodalen Hypergraphen zu unterschiedlichen Zeitpunkten, um die einzelnen semantischen Graphendarstellungen zu verbessern und somit auch die zeitlichen Beschränkungen zu überwinden. Unser Ansatz verdeutlicht den Fall „Zwei Köpfe sind besser als einer“, da semantische Graphendarstellungen mit Hilfe des vorgeschlagenen Verbesserungsmechanismus robuster sind als solche ohne. Schließlich projizieren wir diese Darstellungen erneut um und nutzen deren Ergebnisse, um textbasierte Ursache-Wirkungs-Beschreibungen zu generieren. Experimentelle Ergebnisse zeigen, dass unser Modell im Vergleich zu anderen state-of-the-art-Verfahren signifikant höhere Leistung erzielt.