Kompositionelle Aufmerksamkeitsnetzwerke für maschinelles Schließen

Wir präsentieren das MAC-Netzwerk, eine neuartige, vollständig differenzierbare Neuronale Netzwerkarchitektur, die explizites und ausdrucksstarkes Schließen erleichtern soll. Das MAC-Netzwerk bewegt sich von monolithischen Black-Box-Neuronenarchitekturen hin zu einem Design, das sowohl Transparenz als auch Vielseitigkeit fördert. Das Modell löst Probleme, indem es sie in eine Reihe von aufmerksamkeitsbasierten Schließeschritten zerlegt, die jeder durch eine neuartige rekurrente Zelle für Gedächtnis, Aufmerksamkeit und Komposition (MAC-Zelle) ausgeführt werden. Diese Zellen trennen Kontrolle und Gedächtnis voneinander. Durch die Verkettung der Zellen und die Einführung struktureller Restriktionen, die ihre Interaktion regeln, lernt das MAC-Netzwerk effektiv iterative Schließeprozesse, die direkt aus den Daten in einem End-to-End-Ansatz abgeleitet werden. Wir demonstrieren die Stärke, Robustheit und Interpretierbarkeit des Modells am anspruchsvollen CLEVR-Datensatz für visuelles Schließen, bei dem wir eine neue Bestmarke von 98,9 % Genauigkeit erreichen und den Fehler der bisher besten Modelle halbieren. Von noch größerer Bedeutung ist jedoch, dass wir zeigen, dass das Modell rechnerisch effizient und dateneffizient ist; insbesondere benötigt es zum Erreichen starker Ergebnisse 5-mal weniger Daten als existierende Modelle.