HyperAIHyperAI

Command Palette

Search for a command to run...

Programme für visuelle Schlussfolgerung ableiten und ausführen

Justin Johnson Bharath Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. Lawrence Zitnick Ross Girshick

Zusammenfassung

Bestehende Methoden für visuelle Inferenz versuchen, Eingaben direkt auf Ausgaben abzubilden, indem sie Black-Box-Architekturen verwenden, ohne die zugrunde liegenden Inferenzprozesse explizit zu modellieren. Als Ergebnis lernen diese Black-Box-Modelle häufig, Verzerrungen in den Daten auszunutzen, anstatt visuelle Inferenz durchzuführen. Inspiriert von Modulnetzen schlägt dieser Artikel ein Modell für visuelle Inferenz vor, das aus einem Programmgenerator besteht, der eine explizite Darstellung des zu durchführenden Inferenzprozesses erstellt, und einer Ausführungsengine, die das resultierende Programm ausführt, um eine Antwort zu generieren. Sowohl der Programmgenerator als auch die Ausführungsengine werden durch neuronale Netze implementiert und mit einer Kombination aus Backpropagation und REINFORCE trainiert. Unter Verwendung des CLEVR-Benchmarks für visuelle Inferenz zeigen wir, dass unser Modell signifikant bessere Ergebnisse als starke Baseline-Modelle erzielt und sich in verschiedenen Szenarien besser verallgemeinert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Programme für visuelle Schlussfolgerung ableiten und ausführen | Paper | HyperAI