HyperAIHyperAI
vor 17 Tagen

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung

Tuong Do, Thanh-Toan Do, Huy Tran, Erman Tjiputra, Quang D. Tran
Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung
Abstract

Im Bereich des Visual Question Answering (VQA) korrelieren die Antworten stark mit der Bedeutung der Frage und den visuellen Inhalten. Um daher gezielt Bild-, Frage- und Antwortinformationen zu nutzen, schlagen wir ein neuartiges dreigliedriges Interaktionsmodell vor, das gleichzeitig hochwertige Beziehungen zwischen diesen drei Eingabedaten lernt. Um die Komplexität der Interaktionen zu überwinden, führen wir eine multimodale, tensorbasierte PARALIND-Zerlegung ein, die die dreigliedrige Interaktion zwischen den drei Eingaben effizient parametrisiert. Zudem wird erstmals Knowledge Distillation im Kontext von Free-form Open-ended VQA angewendet. Dies dient nicht nur der Reduzierung des Rechenaufwands und des Speicherbedarfs, sondern auch der Übertragung von Wissen vom dreigliedrigen Interaktionsmodell auf ein bilineares Interaktionsmodell. Umfangreiche Experimente auf den etablierten Benchmark-Datensätzen TDIUC, VQA-2.0 und Visual7W zeigen, dass das vorgeschlagene kompakte dreigliedrige Interaktionsmodell mit einem einzelnen Modell auf allen drei Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt.

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI