HyperAIHyperAI
vor 2 Monaten

TGIF-QA: Auf dem Weg zur räumlich-zeitlichen Schlussfolgerung in der visuellen Fragebeantwortung

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim
TGIF-QA: Auf dem Weg zur räumlich-zeitlichen Schlussfolgerung in der visuellen Fragebeantwortung
Abstract

Die Verarbeitung von Vision und Sprachverständnis ist zu einem Thema geworden, das intensiv im Bereich der Künstlichen Intelligenz untersucht wird. Unter den vielen Aufgaben dieser Forschungsrichtung war die visuelle Fragebeantwortung (VQA) eine der erfolgreichsten, bei der das Ziel darin besteht, ein Modell zu entwickeln, das visuelle Inhalte auf regionalen Details versteht und ihre Beziehungen zu Frage-Antwort-Paaren in natürlicher Sprache findet. Trotz des raschen Fortschritts in den letzten Jahren haben die meisten existierenden Arbeiten im Bereich VQA sich hauptsächlich auf Bilder konzentriert. In diesem Artikel konzentrieren wir uns darauf, VQA auf den Videobereich auszuweiten und tragen in drei wichtigen Aspekten zur Literatur bei. Erstens schlagen wir drei neue Aufgaben vor, die speziell für Video-VQA entwickelt wurden und räumlich-zeitliches Schließen erfordern, um Fragen korrekt zu beantworten. Zweitens stellen wir einen neuen großen Datensatz für Video-VQA vor, der TGIF-QA genannt wird und die bestehenden VQA-Arbeiten durch unsere neuen Aufgaben erweitert. Drittens schlagen wir einen Ansatz basierend auf doppelten LSTMs (Long Short-Term Memory) mit sowohl räumlicher als auch zeitlicher Aufmerksamkeit vor und zeigen seine Effektivität gegenüber herkömmlichen VQA-Techniken durch empirische Bewertungen.