HyperAIHyperAI

Command Palette

Search for a command to run...

Transparenz durch Design: Überbrückung der Lücke zwischen Leistung und Interpretierbarkeit in der visuellen Schlussfolgerung

David Mascharka*1 Philip Tran2 Ryan Soklaski1 Arjun Majumdar*1

Zusammenfassung

Visuelles Fragenbeantworten erfordert eine hochrangige Schlussfolgerung über ein Bild, eine grundlegende Fähigkeit, die von Maschensystemen benötigt wird, um komplexe Anweisungen zu befolgen. Kürzlich haben modulare Netzwerke sich als effektiver Rahmen für die Durchführung visueller Schlussfolgerungsaufgaben erwiesen. Obwohl modulare Netzwerke anfangs mit einem gewissen Grad an Modelltransparenz entwickelt wurden, war ihre Leistung bei komplexen Benchmarks der visuellen Schlussfolgerung mangelhaft. Aktuelle Stand-der-Technik-Ansätze bieten kein wirksames Verfahren zur Verständigung des Schlussfolgerungsprozesses. In dieser Arbeit schließen wir die Leistungs-Lücke zwischen interpretierbaren Modellen und den aktuellen Methoden der visuellen Schlussfolgerung. Wir schlagen eine Reihe von visuellen Schlussfolgerungs-Primitiven vor, die, wenn sie zusammengesetzt werden, ein Modell hervorbringen, das in explizit interpretierbarer Weise komplexe Aufgaben lösen kann. Die Genauigkeit und Interpretierbarkeit der Ausgaben dieser Primitiven ermöglichen eine bislang unbekannte Fähigkeit zur Diagnose der Stärken und Schwächen des resultierenden Modells. Entscheidend zeigen wir, dass diese Primitiven sehr leistungsfähig sind und eine Stand-der-Technik-Genauigkeit von 99,1 % auf dem CLEVR-Datensatz erreichen. Wir demonstrieren auch, dass unser Modell effektiv verallgemeinernde Darstellungen lernen kann, wenn es nur wenige Daten mit neuen Objekteigenschaften zur Verfügung hat. Mithilfe der CoGenT-Generalisierungsaufgabe zeigen wir einen mehr als 20-Prozentpunkte-Vorsprung gegenüber dem aktuellen Stand der Technik.请注意,这里将“visual-reasoning primitives”翻译为“visuelle Schlussfolgerungs-Primitiven”,以保持专业性和准确性。其他术语也尽量采用了通用的德语译法。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Transparenz durch Design: Überbrückung der Lücke zwischen Leistung und Interpretierbarkeit in der visuellen Schlussfolgerung | Paper | HyperAI