HyperAIHyperAI

Command Palette

Search for a command to run...

GraghVQA: Sprachgeleitete Graphennetzwerke für graphbasierte visuelle Fragebeantwortung

Weixin Liang Yanhao Jiang Zixuan Liu

Zusammenfassung

Bilder sind mehr als nur eine Zusammenstellung von Objekten oder Attributen – sie repräsentieren ein Netzwerk von Beziehungen zwischen miteinander verbundenen Objekten. Der Scene Graph ist als neuartige Modality für eine strukturierte grafische Darstellung von Bildern hervorgetreten. Dabei werden Objekte als Knoten dargestellt, die über paarweise Beziehungen als Kanten miteinander verbunden sind. Um die Fragebeantwortung auf Scene Graphs zu unterstützen, schlagen wir GraphVQA vor, einen sprachgesteuerten Graphen-Neuronalen-Netzwerk-Framework, der eine natürlichsprachliche Frage in mehrere Iterationen des Nachrichtenaustauschs zwischen den Knoten des Graphen übersetzt und ausführt. Wir untersuchen den Gestaltungsraum des GraphVQA-Frameworks und diskutieren die Vor- und Nachteile unterschiedlicher Entwurfsentscheidungen. Unsere Experimente auf dem GQA-Datensatz zeigen, dass GraphVQA das bisher beste Modell deutlich übertrifft (88,43 % gegenüber 94,78 %).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp