HyperAIHyperAI

Command Palette

Search for a command to run...

MAttNet: Modular Attention Network für die Verweisexpression-Komprehension

Zusammenfassung

In diesem Artikel behandeln wir die Verweisungsausdrucksverstehens: die Lokalisierung einer Bildregion, die durch einen natürlichen Sprachausdruck beschrieben wird. Während der Großteil der jüngeren Arbeiten Ausdrücke als einheitliches Ganzes betrachtet, schlagen wir vor, sie in drei modulare Komponenten zu zerlegen, die sich auf das Erscheinungsbild des Subjekts, dessen Lage sowie die Beziehung zu anderen Objekten beziehen. Dadurch können wir flexibel auf Ausdrücke mit unterschiedlichen Informationsarten in einem end-to-end-Frame-Work reagieren. In unserem Modell, das wir Modular Attention Network (MAttNet) nennen, werden zwei Arten von Aufmerksamkeit eingesetzt: sprachbasierte Aufmerksamkeit, die die Modulgewichte sowie die Aufmerksamkeit für einzelne Wörter oder Phrasen, auf die jedes Modul sich konzentrieren soll, lernt; sowie visuelle Aufmerksamkeit, die den Subjekt- und Beziehungsmodulen ermöglicht, sich auf relevante Bildkomponenten zu fokussieren. Die Modulgewichte kombinieren dynamisch die Scores aller drei Module zu einem Gesamtscore. Experimente zeigen, dass MAttNet bisherige State-of-the-Art-Methoden sowohl bei Aufgaben auf der Ebene von Bounding-Boxes als auch auf der Pixel-Ebene erheblich übertrifft. Eine Demonstration und der Quellcode sind verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAttNet: Modular Attention Network für die Verweisexpression-Komprehension | Paper | HyperAI