HyperAIHyperAI

Command Palette

Search for a command to run...

Neuronale Modulnetze

Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein

Zusammenfassung

Visuelles Fragenbeantworten ist grundlegend kompositionell in der Natur – eine Frage wie „Wo befindet sich der Hund?“ teilt sich Strukturen mit Fragen wie „Welche Farbe hat der Hund?“ und „Wo befindet sich die Katze?“. Dieses Papier strebt an, gleichzeitig die repräsentative Kapazität tiefer Netzwerke und die kompositionelle linguistische Struktur von Fragen zu nutzen. Wir beschreiben ein Verfahren zur Konstruktion und dem Lernen von neuronalen Modulnetzwerken (neural module networks), bei denen Sammlungen gemeinsam trainierter neuronalen „Module“ zu tiefen Netzwerken für die Fragenbeantwortung zusammengesetzt werden. Unser Ansatz zerlegt Fragen in ihre linguistischen Teilstrukturen und verwendet diese Strukturen, um modulare Netzwerke dynamisch zu instanziieren (mit wiederverwendbaren Komponenten zur Erkennung von Hunden, Klassifikation von Farben usw.). Die resultierenden zusammengesetzten Netzwerke werden gemeinsam trainiert. Wir evaluieren unseren Ansatz anhand zweier anspruchsvoller Datensätze für visuelle Fragenbeantwortung und erzielen dabei den Stand der Technik sowohl im VQA-Datensatz natürlicher Bilder als auch in einem neuen Datensatz komplexer Fragen über abstrakte Formen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp