MAttNet: Modulare Aufmerksamkeitsnetzwerk für die Verarbeitung von Anaphern

In dieser Arbeit befassen wir uns mit der Verarbeitung von Referenzausdrücken: die Lokalisierung eines Bildbereichs, der durch einen natürlichsprachlichen Ausdruck beschrieben wird. Während die meisten jüngsten Arbeiten Ausdrücke als eine Einheit behandeln, schlagen wir vor, sie in drei modulare Komponenten zu zerlegen, die sich auf das Erscheinungsbild des Subjekts, dessen Position und dessen Beziehung zu anderen Objekten beziehen. Dies ermöglicht es uns, flexibel auf Ausdrücke mit unterschiedlichen Informationsarten in einem End-to-End-Framework zu reagieren. In unserem Modell, das wir das Modulare Aufmerksamkeitsnetzwerk (Modular Attention Network, MAttNet) nennen, werden zwei Arten von Aufmerksamkeit genutzt: sprachbasierte Aufmerksamkeit, die die Gewichte der Module lernt sowie die Wörter oder Phrasen, auf die jedes Modul fokussiert sein sollte; und visuelle Aufmerksamkeit, die es den Subjekt- und Beziehungsmodulen ermöglicht, sich auf relevante Bildkomponenten zu konzentrieren. Die Modulgewichte kombinieren dynamisch die Bewertungen aller drei Module, um eine Gesamtbewertung auszugeben. Experimente zeigen, dass MAttNet bei sowohl den Bounding-Box-Ebene- als auch den Pixel-Ebene-Verständnis-Aufgaben deutlich bessere Ergebnisse erzielt als bisherige Stand-of-the-Art-Methoden. Eine Demonstration und der Quellcode werden bereitgestellt.