HyperAIHyperAI

Command Palette

Search for a command to run...

Fragegeleitete hybride Faltung für visuelle Fragebeantwortung

Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang

Zusammenfassung

In dieser Arbeit schlagen wir ein neues Fragegeleitetes Hybrides Faltungssystem (QGHC) für visuelle Fragebeantwortung (VQA) vor. Die meisten derzeitigen VQA-Methoden fügen hochstufige textuelle und visuelle Merkmale aus dem neuronalen Netzwerk zusammen und verwerfen dabei die räumliche visuelle Information beim Lernen multimodaler Merkmale. Um diese Probleme zu lösen, wurden fragegeleitete Kerne, die aus der Eingabefrage generiert werden, entwickelt, um mit den visuellen Merkmalen zu falten und so das textuelle und visuelle Verhältnis in einem frühen Stadium zu erfassen. Die fragegeleitete Faltung kann die textuellen und visuellen Informationen eng verbinden, führt aber auch zu einer Erhöhung der Parameterzahl beim Lernen der Kerne. Wir wenden eine Gruppenfaltung an, die aus frageunabhängigen Kernen und frageabhängigen Kernen besteht, um die Anzahl der Parameter zu reduzieren und das Überanpassen (Overfitting) abzumildern. Die hybride Faltung kann mit weniger Parametern diskriminative multimodale Merkmale erzeugen. Der vorgeschlagene Ansatz ist auch ergänzend zu existierenden bilinearen Pooling-Fusionen und aufmerksamkeitsbasierten VQA-Methoden. Durch ihre Integration kann unsere Methode die Leistung weiter verbessern. Ausführliche Experimente auf öffentlichen VQA-Datensätzen bestätigen die Effektivität des QGHC.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fragegeleitete hybride Faltung für visuelle Fragebeantwortung | Paper | HyperAI