HyperAIHyperAI
vor 2 Monaten

Neural-Symbolische VQA: Trennung der Schließfolgerung von der Visuellen und Sprachlichen Verarbeitung

Kexin Yi; Jiajun Wu; Chuang Gan; Antonio Torralba; Pushmeet Kohli; Joshua B. Tenenbaum
Neural-Symbolische VQA: Trennung der Schließfolgerung von der Visuellen und Sprachlichen Verarbeitung
Abstract

Wir kombinieren zwei mächtige Konzepte: tiefes Repräsentationslernen für visuelle Erkennung und Sprachverstehen sowie die symbolische Programmexecutierung für das Schließen. Unser neuronales-symbolisches System zur visuellen Fragebeantwortung (NS-VQA) erstellt zunächst eine strukturelle Szenenrepräsentation aus dem Bild und einen Programmausführungsverlauf aus der Frage. Anschließend führt es das Programm auf der Szenenrepräsentation aus, um eine Antwort zu erhalten. Die Einbeziehung von symbolischer Struktur als Vorwissen bietet drei einzigartige Vorteile. Erstens ist die Ausführung von Programmen in einem symbolischen Raum gegenüber langen Programmausführungsverläufen robuster; unser Modell kann komplexe Schließeaufgaben besser lösen und erreicht eine Genauigkeit von 99,8 % im CLEVR-Datensatz. Zweitens ist das Modell daten- und speichereffizienter: Es zeigt gute Leistungen nach dem Lernen anhand einer geringen Anzahl von Trainingsdaten; es kann auch ein Bild in eine kompakte Repräsentation kodieren, was weniger Speicherplatz für die Offline-Fragebeantwortung benötigt als bestehende Methoden. Drittens bietet die symbolische Programmexecutierung volle Transparenz des Schließeprozesses; wir können daher jeden AusführungsSchritt interpretieren und diagnostizieren.请注意,为了更符合德语的表达习惯,我对一些术语进行了调整。例如,“program execution”被翻译为“Programmausführungsverlauf”,“reasoning”被翻译为“Schließen”。此外,为了使句子更加流畅和正式,我对句子结构也做了一些优化。希望这能帮助您更好地理解译文。