VinVL+L: Verfeinerung der visuellen Darstellung durch Ortskontexte in VQA

In diesem Paper beschreiben wir eine neuartige Methode – VinVL+L –, die die visuellen Darstellungen (d. h. Objekt-Tags und Region-Features) des state-of-the-art Vision-and-Language-(VL)-Verfahrens VinVL durch Hinzufügen von Ortsinformationen (Location information) erweitert. Um die Bedeutung solcher Metadaten für VL-Modelle zu überprüfen, (i) trainierten wir ein Swin-B-Modell auf dem Places365-Datensatz und generierten zusätzliche Sätze visueller und tag-basierter Features; beide Sets wurden öffentlich bereitgestellt, um Reproduzierbarkeit und weitere Experimente zu ermöglichen, (ii) führten eine architektonische Aktualisierung des bestehenden VinVL-Verfahrens durch, um die neuen Feature-Sets zu integrieren, und (iii) bieten eine qualitative und quantitative Evaluation an. Durch die einfache Integration binärer Ortsmetadaten erzielt die VinVL+L-Methode eine inkrementelle Verbesserung gegenüber dem state-of-the-art VinVL-Verfahren im Bereich der Visual Question Answering (VQA). Auf dem GQA-Datensatz erreichte VinVL+L eine Genauigkeit von 64,85 % und steigerte die Leistung um +0,32 % in Bezug auf die Genauigkeit; die statistische Signifikanz der neuen Darstellungen wurde mittels Approximate Randomization verifiziert. Der Quellcode sowie die neu generierten Feature-Sets sind unter https://github.com/vyskocj/VinVL-L verfügbar.