Graph-Konvolutionen bereichern die Selbst-Aufmerksamkeit in Transformatoren!

Transformers, die wegen ihres Selbst-Aufmerksamkeitsmechanismus bekannt sind, haben auf verschiedenen Aufgaben im Bereich der natürlichen Sprachverarbeitung, der Computer Vision und des Zeitreihenmodells (time-series modeling) den aktuellen Stand der Technik erreicht. Ein Herausforderung bei tiefen Transformer-Modellen ist jedoch das Überglättungsproblem (oversmoothing problem), bei dem die Darstellungen über die Schichten hinweg zu nicht unterscheidbaren Werten konvergieren, was zu einer erheblichen Leistungsverschlechterung führt. Wir interpretieren den ursprünglichen Selbst-Aufmerksamkeitsmechanismus als einen einfachen Graphenfilter und gestalten ihn aus Sicht der Graphensignalverarbeitung (GSP) neu. Wir schlagen ein auf Graphenfilter basierendes Selbst-Aufmerksamkeitsmechanismus (GFSA) vor, um eine allgemeine und dennoch effektive Lösung zu lernen, deren Komplexität jedoch leicht höher ist als die des ursprünglichen Selbst-Aufmerksamkeitsmechanismus. Wir zeigen, dass GFSA die Leistung von Transformers in verschiedenen Bereichen verbessert, darunter Computer Vision, natürliche Sprachverarbeitung, graphenbasierte Aufgaben, Spracherkennung und Codeklassifizierung.