Aufmerksamkeit über gelernte Objekt-Embeddings ermöglicht komplexe visuelle Schlussfolgerungen

Neuronale Netze haben bei einer Vielzahl perceptueller Aufgaben Erfolg erzielt, scheitern jedoch häufig bei Aufgaben, die sowohl Wahrnehmung als auch höherstufiges Schließen erfordern. Bei diesen anspruchsvolleren Aufgaben haben spezifisch für diese Aufgabentypen entwickelte Ansätze – wie modulare symbolische Komponenten, unabhängige Dynamikmodelle oder semantische Parser – typischerweise bessere Ergebnisse erzielt. Der Nachteil solcher gezielter Ansätze liegt jedoch darin, dass sie oft brüchiger sind als allgemein einsetzbare neuronale Netze und je nach konkreter Aufgabe erhebliche Anpassungen oder sogar eine Neukonzeption erfordern. In diesem Beitrag stellen wir einen allgemeineren, auf neuronalen Netzen basierenden Ansatz für dynamische visuelle Schlussfolgerungsaufgaben vor, der in drei unterschiedlichen Domänen Spitzenleistungen erzielt und jeweils spezifisch für die jeweilige Aufgabe angepasste modulare Ansätze übertrifft. Unser Verfahren beruht auf gelernten objektorientierten Darstellungen, Selbst-Attention und selbstüberwachtem Dynamiklernen; alle drei Komponenten sind gemeinsam notwendig, damit eine hohe Leistung entsteht. Der Erfolg dieser Kombination deutet darauf hin, dass bei Aufgaben, die räumlich-zeitliches oder kausal-artiges Schließen erfordern, kein Kompromiss zwischen Flexibilität und Leistung notwendig ist. Mit den richtigen weichen Vorkenntnissen (soft biases) und Lernzielen in einem neuronalen Netzwerk könnten wir möglicherweise das Beste aus beiden Welten erreichen.