HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-shot Visual Question Answering unter Verwendung von Wissensgraphen

Zhuo Chen Jiaoyan Chen Yuxia Geng Jeff Z. Pan Zonggang Yuan Huajun Chen

Zusammenfassung

Die Einbeziehung externer Wissensquellen in die visuelle Fragebeantwortung (Visual Question Answering, VQA) ist zu einem entscheidenden praktischen Bedarf geworden. Bisherige Ansätze basieren meist auf Pipeline-Verfahren, bei denen unterschiedliche Komponenten für die Wissensabgleichung und -extraktion, Merkmalslernverfahren usw. zuständig sind. Diese Pipeline-Ansätze leiden jedoch unter schlechter Leistung einzelner Komponenten, was zu Fehlerfortpflanzung und einer insgesamt schlechten Gesamtleistung führt. Zudem ignorieren die meisten bestehenden Ansätze das Problem der Antwortverzerrung – in realen Anwendungen treten viele Antworten auf, die während des Trainings nie aufgetreten sind (sogenannte „unbekannte Antworten“). Um diese Lücken zu schließen, schlagen wir in diesem Artikel einen Zero-shot-VQA-Algorithmus vor, der Wissensgraphen und einen maskenbasierten Lernmechanismus nutzt, um externe Wissensquellen effizienter zu integrieren. Zudem präsentieren wir neue, auf Antworten basierende Zero-shot-VQA-Splits für die F-VQA-Datenbank. Experimente zeigen, dass unsere Methode sowohl bei Zero-shot-VQA mit unbekannten Antworten eine state-of-the-art-Leistung erzielt als auch bestehende end-to-end-Modelle erheblich auf der normalen F-VQA-Aufgabe verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp