HyperAIHyperAI

Command Palette

Search for a command to run...

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

Im Bereich des Visual Question Answering (VQA) korrelieren die Antworten stark mit der Bedeutung der Frage und den visuellen Inhalten. Um daher gezielt Bild-, Frage- und Antwortinformationen zu nutzen, schlagen wir ein neuartiges dreigliedriges Interaktionsmodell vor, das gleichzeitig hochwertige Beziehungen zwischen diesen drei Eingabedaten lernt. Um die Komplexität der Interaktionen zu überwinden, führen wir eine multimodale, tensorbasierte PARALIND-Zerlegung ein, die die dreigliedrige Interaktion zwischen den drei Eingaben effizient parametrisiert. Zudem wird erstmals Knowledge Distillation im Kontext von Free-form Open-ended VQA angewendet. Dies dient nicht nur der Reduzierung des Rechenaufwands und des Speicherbedarfs, sondern auch der Übertragung von Wissen vom dreigliedrigen Interaktionsmodell auf ein bilineares Interaktionsmodell. Umfangreiche Experimente auf den etablierten Benchmark-Datensätzen TDIUC, VQA-2.0 und Visual7W zeigen, dass das vorgeschlagene kompakte dreigliedrige Interaktionsmodell mit einem einzelnen Modell auf allen drei Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp