HyperAIHyperAI
vor 2 Monaten

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung

Pan Lu; Hongsheng Li; Wei Zhang; Jianyong Wang; Xiaogang Wang
Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung
Abstract

Kürzlich hat die Aufgabe des visuellen Fragebeantwortens (VQA) in der künstlichen Intelligenz zunehmend an Bedeutung gewonnen. Bestehende VQA-Methoden setzen hauptsächlich das Mechanismus der visuellen Aufmerksamkeit ein, um die Eingabe-Frage mit entsprechenden Bildabschnitten zu verknüpfen und so eine effektive Fragebeantwortung zu ermöglichen. Die auf freien Bereichen basierenden und die auf Detektion basierenden Mechanismen der visuellen Aufmerksamkeit werden am häufigsten untersucht, wobei die ersteren freie Bildbereiche und die letzteren vordefinierte Detektionsboxen beachten. Wir argumentieren, dass diese beiden Aufmerksamkeitsmechanismen ergänzende Informationen liefern können und effektiv integriert werden sollten, um das VQA-Problem besser zu lösen. In dieser Arbeit schlagen wir ein neues tiefes neuronales Netzwerk für VQA vor, das beide Aufmerksamkeitsmechanismen kombiniert. Unser vorgeschlagener Rahmen vereint Merkmale von freien Bildbereichen, Detektionsboxen und Frage-Darstellungen durch ein multimodales multiplikatives Merkmals-Einbettungsverfahren, um sowohl fragebezogene freie Bildbereiche als auch Detektionsboxen gemeinsam zu beachten und so eine genauere Fragebeantwortung zu ermöglichen. Die vorgeschlagene Methode wurde ausführlich anhand zweier öffentlich zugänglicher Datensätze, COCO-QA und VQA, evaluiert und übertrifft den Stand der Technik. Der Quellcode ist unter https://github.com/lupantech/dual-mfa-vqa verfügbar.

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI