VinVL+L: Verfeinerung der visuellen Darstellung durch Ortskontexte in VQA
{Lukáš Picek Jiří Vyskočil}

Abstract
In diesem Paper beschreiben wir eine neuartige Methode – VinVL+L –, die die visuellen Darstellungen (d. h. Objekt-Tags und Region-Features) des state-of-the-art Vision-and-Language-(VL)-Verfahrens VinVL durch Hinzufügen von Ortsinformationen (Location information) erweitert. Um die Bedeutung solcher Metadaten für VL-Modelle zu überprüfen, (i) trainierten wir ein Swin-B-Modell auf dem Places365-Datensatz und generierten zusätzliche Sätze visueller und tag-basierter Features; beide Sets wurden öffentlich bereitgestellt, um Reproduzierbarkeit und weitere Experimente zu ermöglichen, (ii) führten eine architektonische Aktualisierung des bestehenden VinVL-Verfahrens durch, um die neuen Feature-Sets zu integrieren, und (iii) bieten eine qualitative und quantitative Evaluation an. Durch die einfache Integration binärer Ortsmetadaten erzielt die VinVL+L-Methode eine inkrementelle Verbesserung gegenüber dem state-of-the-art VinVL-Verfahren im Bereich der Visual Question Answering (VQA). Auf dem GQA-Datensatz erreichte VinVL+L eine Genauigkeit von 64,85 % und steigerte die Leistung um +0,32 % in Bezug auf die Genauigkeit; die statistische Signifikanz der neuen Darstellungen wurde mittels Approximate Randomization verifiziert. Der Quellcode sowie die neu generierten Feature-Sets sind unter https://github.com/vyskocj/VinVL-L verfügbar.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-gqa-test2019 | VinVL+L | Accuracy: 64.85 Binary: 82.59 Consistency: 94.0 Distribution: 4.59 Open: 49.19 Plausibility: 84.91 Validity: 96.62 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.