HyperAIHyperAI

Command Palette

Search for a command to run...

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

Kürzlich hat die Aufgabe des visuellen Fragebeantwortens (VQA) in der künstlichen Intelligenz zunehmend an Bedeutung gewonnen. Bestehende VQA-Methoden setzen hauptsächlich das Mechanismus der visuellen Aufmerksamkeit ein, um die Eingabe-Frage mit entsprechenden Bildabschnitten zu verknüpfen und so eine effektive Fragebeantwortung zu ermöglichen. Die auf freien Bereichen basierenden und die auf Detektion basierenden Mechanismen der visuellen Aufmerksamkeit werden am häufigsten untersucht, wobei die ersteren freie Bildbereiche und die letzteren vordefinierte Detektionsboxen beachten. Wir argumentieren, dass diese beiden Aufmerksamkeitsmechanismen ergänzende Informationen liefern können und effektiv integriert werden sollten, um das VQA-Problem besser zu lösen. In dieser Arbeit schlagen wir ein neues tiefes neuronales Netzwerk für VQA vor, das beide Aufmerksamkeitsmechanismen kombiniert. Unser vorgeschlagener Rahmen vereint Merkmale von freien Bildbereichen, Detektionsboxen und Frage-Darstellungen durch ein multimodales multiplikatives Merkmals-Einbettungsverfahren, um sowohl fragebezogene freie Bildbereiche als auch Detektionsboxen gemeinsam zu beachten und so eine genauere Fragebeantwortung zu ermöglichen. Die vorgeschlagene Methode wurde ausführlich anhand zweier öffentlich zugänglicher Datensätze, COCO-QA und VQA, evaluiert und übertrifft den Stand der Technik. Der Quellcode ist unter https://github.com/lupantech/dual-mfa-vqa verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung | Paper | HyperAI