Ist Aufmerksamkeit besser als Matrixzerlegung?

Als essenzieller Bestandteil moderner tiefen Lernverfahren spielt die Aufmerksamkeitsmechanik, insbesondere die Selbstaufmerksamkeit, eine entscheidende Rolle bei der Entdeckung globaler Korrelationen. Doch ist eine handgefertigte Aufmerksamkeit unersetzbar, wenn der globale Kontext modelliert wird? Unser faszinierendes Ergebnis zeigt, dass die Selbstaufmerksamkeit hinsichtlich Leistung und rechnerischer Kosten bei der Kodierung langstreckiger Abhängigkeiten nicht besser ist als das vor 20 Jahren entwickelte Matrixzerlegungsmodell (Matrix Decomposition, MD). Wir formulieren das Problem des globalen Kontexts als ein Problem der niedrigen Rangrekonstruktion und zeigen, dass dessen Optimierungsalgorithmen zur Gestaltung von Blöcken für globale Information genutzt werden können. In dieser Arbeit werden eine Reihe von „Hamburgern“ vorgestellt, bei denen wir Optimierungsalgorithmen zur Lösung von MDs einsetzen, um die Eingaberepräsentationen in Untermatrizen zu zerlegen und eine niedrige Rang-Embedding-Rekonstruktion vorzunehmen. Hamburgers, die verschiedene MDs nutzen, können bei sorgfältiger Behandlung der durch die MDs zurückpropagierten Gradienten der gängigen globalen Kontextkomponente, der Selbstaufmerksamkeit, ebenbürtig oder sogar überlegen sein. Umfassende Experimente in visuellen Aufgaben, bei denen die Erfassung des globalen Kontexts entscheidend ist – wie semantische Segmentierung und Bildgenerierung – zeigen signifikante Verbesserungen gegenüber der Selbstaufmerksamkeit und ihren Varianten.