HyperAIHyperAI
vor 2 Monaten

Transparenz durch Design: Überbrückung der Lücke zwischen Leistung und Interpretierbarkeit in der visuellen Schlussfolgerung

David Mascharka; Philip Tran; Ryan Soklaski; Arjun Majumdar
Transparenz durch Design: Überbrückung der Lücke zwischen Leistung und Interpretierbarkeit in der visuellen Schlussfolgerung
Abstract

Visuelles Fragenbeantworten erfordert eine hochrangige Schlussfolgerung über ein Bild, eine grundlegende Fähigkeit, die von Maschensystemen benötigt wird, um komplexe Anweisungen zu befolgen. Kürzlich haben modulare Netzwerke sich als effektiver Rahmen für die Durchführung visueller Schlussfolgerungsaufgaben erwiesen. Obwohl modulare Netzwerke anfangs mit einem gewissen Grad an Modelltransparenz entwickelt wurden, war ihre Leistung bei komplexen Benchmarks der visuellen Schlussfolgerung mangelhaft. Aktuelle Stand-der-Technik-Ansätze bieten kein wirksames Verfahren zur Verständigung des Schlussfolgerungsprozesses. In dieser Arbeit schließen wir die Leistungs-Lücke zwischen interpretierbaren Modellen und den aktuellen Methoden der visuellen Schlussfolgerung. Wir schlagen eine Reihe von visuellen Schlussfolgerungs-Primitiven vor, die, wenn sie zusammengesetzt werden, ein Modell hervorbringen, das in explizit interpretierbarer Weise komplexe Aufgaben lösen kann. Die Genauigkeit und Interpretierbarkeit der Ausgaben dieser Primitiven ermöglichen eine bislang unbekannte Fähigkeit zur Diagnose der Stärken und Schwächen des resultierenden Modells. Entscheidend zeigen wir, dass diese Primitiven sehr leistungsfähig sind und eine Stand-der-Technik-Genauigkeit von 99,1 % auf dem CLEVR-Datensatz erreichen. Wir demonstrieren auch, dass unser Modell effektiv verallgemeinernde Darstellungen lernen kann, wenn es nur wenige Daten mit neuen Objekteigenschaften zur Verfügung hat. Mithilfe der CoGenT-Generalisierungsaufgabe zeigen wir einen mehr als 20-Prozentpunkte-Vorsprung gegenüber dem aktuellen Stand der Technik.请注意,这里将“visual-reasoning primitives”翻译为“visuelle Schlussfolgerungs-Primitiven”,以保持专业性和准确性。其他术语也尽量采用了通用的德语译法。