Command Palette
Search for a command to run...
MAttNet: Modular Attention Network für die Verweisexpression-Komprehension
MAttNet: Modular Attention Network für die Verweisexpression-Komprehension
Zusammenfassung
In diesem Artikel behandeln wir die Verweisungsausdrucksverstehens: die Lokalisierung einer Bildregion, die durch einen natürlichen Sprachausdruck beschrieben wird. Während der Großteil der jüngeren Arbeiten Ausdrücke als einheitliches Ganzes betrachtet, schlagen wir vor, sie in drei modulare Komponenten zu zerlegen, die sich auf das Erscheinungsbild des Subjekts, dessen Lage sowie die Beziehung zu anderen Objekten beziehen. Dadurch können wir flexibel auf Ausdrücke mit unterschiedlichen Informationsarten in einem end-to-end-Frame-Work reagieren. In unserem Modell, das wir Modular Attention Network (MAttNet) nennen, werden zwei Arten von Aufmerksamkeit eingesetzt: sprachbasierte Aufmerksamkeit, die die Modulgewichte sowie die Aufmerksamkeit für einzelne Wörter oder Phrasen, auf die jedes Modul sich konzentrieren soll, lernt; sowie visuelle Aufmerksamkeit, die den Subjekt- und Beziehungsmodulen ermöglicht, sich auf relevante Bildkomponenten zu fokussieren. Die Modulgewichte kombinieren dynamisch die Scores aller drei Module zu einem Gesamtscore. Experimente zeigen, dass MAttNet bisherige State-of-the-Art-Methoden sowohl bei Aufgaben auf der Ebene von Bounding-Boxes als auch auf der Pixel-Ebene erheblich übertrifft. Eine Demonstration und der Quellcode sind verfügbar.