HyperAIHyperAI
vor 11 Tagen

GraghVQA: Sprachgeleitete Graphennetzwerke für graphbasierte visuelle Fragebeantwortung

Weixin Liang, Yanhao Jiang, Zixuan Liu
GraghVQA: Sprachgeleitete Graphennetzwerke für graphbasierte visuelle Fragebeantwortung
Abstract

Bilder sind mehr als nur eine Zusammenstellung von Objekten oder Attributen – sie repräsentieren ein Netzwerk von Beziehungen zwischen miteinander verbundenen Objekten. Der Scene Graph ist als neuartige Modality für eine strukturierte grafische Darstellung von Bildern hervorgetreten. Dabei werden Objekte als Knoten dargestellt, die über paarweise Beziehungen als Kanten miteinander verbunden sind. Um die Fragebeantwortung auf Scene Graphs zu unterstützen, schlagen wir GraphVQA vor, einen sprachgesteuerten Graphen-Neuronalen-Netzwerk-Framework, der eine natürlichsprachliche Frage in mehrere Iterationen des Nachrichtenaustauschs zwischen den Knoten des Graphen übersetzt und ausführt. Wir untersuchen den Gestaltungsraum des GraphVQA-Frameworks und diskutieren die Vor- und Nachteile unterschiedlicher Entwurfsentscheidungen. Unsere Experimente auf dem GQA-Datensatz zeigen, dass GraphVQA das bisher beste Modell deutlich übertrifft (88,43 % gegenüber 94,78 %).

GraghVQA: Sprachgeleitete Graphennetzwerke für graphbasierte visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI