vor 2 Monaten

Fragegeleitete hybride Faltung für visuelle Fragebeantwortung

Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang

Abstract

In dieser Arbeit schlagen wir ein neues Fragegeleitetes Hybrides Faltungssystem (QGHC) für visuelle Fragebeantwortung (VQA) vor. Die meisten derzeitigen VQA-Methoden fügen hochstufige textuelle und visuelle Merkmale aus dem neuronalen Netzwerk zusammen und verwerfen dabei die räumliche visuelle Information beim Lernen multimodaler Merkmale. Um diese Probleme zu lösen, wurden fragegeleitete Kerne, die aus der Eingabefrage generiert werden, entwickelt, um mit den visuellen Merkmalen zu falten und so das textuelle und visuelle Verhältnis in einem frühen Stadium zu erfassen. Die fragegeleitete Faltung kann die textuellen und visuellen Informationen eng verbinden, führt aber auch zu einer Erhöhung der Parameterzahl beim Lernen der Kerne. Wir wenden eine Gruppenfaltung an, die aus frageunabhängigen Kernen und frageabhängigen Kernen besteht, um die Anzahl der Parameter zu reduzieren und das Überanpassen (Overfitting) abzumildern. Die hybride Faltung kann mit weniger Parametern diskriminative multimodale Merkmale erzeugen. Der vorgeschlagene Ansatz ist auch ergänzend zu existierenden bilinearen Pooling-Fusionen und aufmerksamkeitsbasierten VQA-Methoden. Durch ihre Integration kann unsere Methode die Leistung weiter verbessern. Ausführliche Experimente auf öffentlichen VQA-Datensätzen bestätigen die Effektivität des QGHC.