vor 3 Monaten

Jenseits der Selbst-Attention: Externe Attention mit zwei linearen Schichten für visuelle Aufgaben

Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, Shi-Min Hu

Abstract

Aufmerksamkeitsmechanismen, insbesondere Self-Attention, spielen eine zunehmend wichtige Rolle bei der tiefen Merkmalsdarstellung für visuelle Aufgaben. Self-Attention aktualisiert das Merkmal an jeder Position durch eine gewichtete Summe von Merkmalen, die auf Basis paarweiser Affinitäten über alle Positionen berechnet wird, um langreichweitige Abhängigkeiten innerhalb einer einzelnen Probe zu erfassen. Allerdings weist Self-Attention eine quadratische Komplexität auf und ignoriert potenzielle Korrelationen zwischen verschiedenen Proben. In dieser Arbeit wird ein neuartiger Aufmerksamkeitsmechanismus vorgestellt, den wir externes Aufmerksamkeit (external attention) nennen, der auf zwei externe, kleine, lernbare und gemeinsam genutzte Speicher basiert. Er lässt sich einfach durch zwei hintereinander geschaltete lineare Schichten sowie zwei Normalisierungsschichten implementieren und kann problemlos Self-Attention in etablierten Architekturen ersetzen. Externes Aufmerksamkeit weist eine lineare Komplexität auf und berücksichtigt implizit die Korrelationen zwischen allen Datensätzen. Darüber hinaus integrieren wir den Multi-Head-Mechanismus in das externe Aufmerksamkeitsmodell, um eine reine MLP-Architektur, die externe Aufmerksamkeits-MLP (EAMLP), für die Bildklassifikation zu entwickeln. Umfassende Experimente in den Bereichen Bildklassifikation, Objekterkennung, semantische Segmentierung, Instanzsegmentierung, Bildgenerierung und Punktwolkenanalyse zeigen, dass unsere Methode Ergebnisse erzielt, die mit denen des Self-Attention-Modells vergleichbar oder sogar überlegen sind, jedoch mit deutlich geringeren Rechen- und Speicherkosten.