Zero-shot Visual Question Answering unter Verwendung von Wissensgraphen

Die Einbeziehung externer Wissensquellen in die visuelle Fragebeantwortung (Visual Question Answering, VQA) ist zu einem entscheidenden praktischen Bedarf geworden. Bisherige Ansätze basieren meist auf Pipeline-Verfahren, bei denen unterschiedliche Komponenten für die Wissensabgleichung und -extraktion, Merkmalslernverfahren usw. zuständig sind. Diese Pipeline-Ansätze leiden jedoch unter schlechter Leistung einzelner Komponenten, was zu Fehlerfortpflanzung und einer insgesamt schlechten Gesamtleistung führt. Zudem ignorieren die meisten bestehenden Ansätze das Problem der Antwortverzerrung – in realen Anwendungen treten viele Antworten auf, die während des Trainings nie aufgetreten sind (sogenannte „unbekannte Antworten“). Um diese Lücken zu schließen, schlagen wir in diesem Artikel einen Zero-shot-VQA-Algorithmus vor, der Wissensgraphen und einen maskenbasierten Lernmechanismus nutzt, um externe Wissensquellen effizienter zu integrieren. Zudem präsentieren wir neue, auf Antworten basierende Zero-shot-VQA-Splits für die F-VQA-Datenbank. Experimente zeigen, dass unsere Methode sowohl bei Zero-shot-VQA mit unbekannten Antworten eine state-of-the-art-Leistung erzielt als auch bestehende end-to-end-Modelle erheblich auf der normalen F-VQA-Aufgabe verbessert.