vor 6 Monaten

Zusammenfassung

Im Bereich des Visual Question Answering (VQA) korrelieren die Antworten stark mit der Bedeutung der Frage und den visuellen Inhalten. Um daher gezielt Bild-, Frage- und Antwortinformationen zu nutzen, schlagen wir ein neuartiges dreigliedriges Interaktionsmodell vor, das gleichzeitig hochwertige Beziehungen zwischen diesen drei Eingabedaten lernt. Um die Komplexität der Interaktionen zu überwinden, führen wir eine multimodale, tensorbasierte PARALIND-Zerlegung ein, die die dreigliedrige Interaktion zwischen den drei Eingaben effizient parametrisiert. Zudem wird erstmals Knowledge Distillation im Kontext von Free-form Open-ended VQA angewendet. Dies dient nicht nur der Reduzierung des Rechenaufwands und des Speicherbedarfs, sondern auch der Übertragung von Wissen vom dreigliedrigen Interaktionsmodell auf ein bilineares Interaktionsmodell. Umfangreiche Experimente auf den etablierten Benchmark-Datensätzen TDIUC, VQA-2.0 und Visual7W zeigen, dass das vorgeschlagene kompakte dreigliedrige Interaktionsmodell mit einem einzelnen Modell auf allen drei Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kompakte trilineare Wechselwirkung für visuelle Fragebeantwortung

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters