Umwandlung von Transformers in DGNN-Form

Neuere Fortschritte im Bereich des Deep Learning haben die Transformer-Architekturen zu der dominierenden Modellierungsparadigma gemacht. Zentral für den Erfolg von Transformers ist die Selbst-Attention-Mechanismus, der die Ähnlichkeit zwischen Query- und Key-Matrizen bewertet, um eine Value-Matrix zu modulieren. Diese Operation zeigt auffällige Ähnlichkeiten mit Digraph-Faltung, was die Untersuchung nahelegt, ob Digraph-Faltung als Alternative zur Selbst-Attention dienen könnte. In dieser Studie formalisieren wir diesen Ansatz, indem wir eine synthetische unitäre Digraph-Faltung auf Basis der Digraph-Fourier-Transformation einführen. Das resultierende Modell, das wir Converter nennen, wandelt einen Transformer effektiv in eine Form eines Directed Graph Neural Network (DGNN) um. Wir haben Converter anhand des Long-Range Arena Benchmarks, der Klassifikation langer Dokumente sowie der Taxonomie-Klassifikation basierend auf DNA-Sequenzen getestet. Unsere experimentellen Ergebnisse zeigen, dass Converter eine überlegene Leistung erzielt, während gleichzeitig Recheneffizienz und architektonische Einfachheit gewahrt bleiben. Damit etabliert sich Converter als eine leichte, dennoch leistungsstarke Variante des Transformers.