HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

VinVL+L: Verfeinerung der visuellen Darstellung durch Ortskontexte in VQA

{Lukáš Picek Jiří Vyskočil}

VinVL+L: Verfeinerung der visuellen Darstellung durch Ortskontexte in VQA

Abstract

In diesem Paper beschreiben wir eine neuartige Methode – VinVL+L –, die die visuellen Darstellungen (d. h. Objekt-Tags und Region-Features) des state-of-the-art Vision-and-Language-(VL)-Verfahrens VinVL durch Hinzufügen von Ortsinformationen (Location information) erweitert. Um die Bedeutung solcher Metadaten für VL-Modelle zu überprüfen, (i) trainierten wir ein Swin-B-Modell auf dem Places365-Datensatz und generierten zusätzliche Sätze visueller und tag-basierter Features; beide Sets wurden öffentlich bereitgestellt, um Reproduzierbarkeit und weitere Experimente zu ermöglichen, (ii) führten eine architektonische Aktualisierung des bestehenden VinVL-Verfahrens durch, um die neuen Feature-Sets zu integrieren, und (iii) bieten eine qualitative und quantitative Evaluation an. Durch die einfache Integration binärer Ortsmetadaten erzielt die VinVL+L-Methode eine inkrementelle Verbesserung gegenüber dem state-of-the-art VinVL-Verfahren im Bereich der Visual Question Answering (VQA). Auf dem GQA-Datensatz erreichte VinVL+L eine Genauigkeit von 64,85 % und steigerte die Leistung um +0,32 % in Bezug auf die Genauigkeit; die statistische Signifikanz der neuen Darstellungen wurde mittels Approximate Randomization verifiziert. Der Quellcode sowie die neu generierten Feature-Sets sind unter https://github.com/vyskocj/VinVL-L verfügbar.

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-gqa-test2019VinVL+L
Accuracy: 64.85
Binary: 82.59
Consistency: 94.0
Distribution: 4.59
Open: 49.19
Plausibility: 84.91
Validity: 96.62

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VinVL+L: Verfeinerung der visuellen Darstellung durch Ortskontexte in VQA | Forschungsarbeiten | HyperAI