vor 7 Monaten

Zusammenfassung

Kürzlich hat die Aufgabe des visuellen Fragebeantwortens (VQA) in der künstlichen Intelligenz zunehmend an Bedeutung gewonnen. Bestehende VQA-Methoden setzen hauptsächlich das Mechanismus der visuellen Aufmerksamkeit ein, um die Eingabe-Frage mit entsprechenden Bildabschnitten zu verknüpfen und so eine effektive Fragebeantwortung zu ermöglichen. Die auf freien Bereichen basierenden und die auf Detektion basierenden Mechanismen der visuellen Aufmerksamkeit werden am häufigsten untersucht, wobei die ersteren freie Bildbereiche und die letzteren vordefinierte Detektionsboxen beachten. Wir argumentieren, dass diese beiden Aufmerksamkeitsmechanismen ergänzende Informationen liefern können und effektiv integriert werden sollten, um das VQA-Problem besser zu lösen. In dieser Arbeit schlagen wir ein neues tiefes neuronales Netzwerk für VQA vor, das beide Aufmerksamkeitsmechanismen kombiniert. Unser vorgeschlagener Rahmen vereint Merkmale von freien Bildbereichen, Detektionsboxen und Frage-Darstellungen durch ein multimodales multiplikatives Merkmals-Einbettungsverfahren, um sowohl fragebezogene freie Bildbereiche als auch Detektionsboxen gemeinsam zu beachten und so eine genauere Fragebeantwortung zu ermöglichen. Die vorgeschlagene Methode wurde ausführlich anhand zweier öffentlich zugänglicher Datensätze, COCO-QA und VQA, evaluiert und übertrifft den Stand der Technik. Der Quellcode ist unter https://github.com/lupantech/dual-mfa-vqa verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung | Paper | HyperAI

Command Palette

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ko-Attending von freien Regionen und Erkennungen mit multimodalem multiplikativen Merkmalsverankerung für visuelle Fragebeantwortung

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters