Star-Transformer

Obwohl der Transformer in vielen NLP-Aufgaben große Erfolge erzielt hat, führt seine komplexe Struktur mit vollständig verbundenen Aufmerksamkeitsverbindungen zu einer Abhängigkeit von großen Trainingsdatensätzen. In dieser Arbeit stellen wir den Star-Transformer vor, eine leichtgewichtige Alternative durch sorgfältige Verdünnung. Um die Modellkomplexität zu reduzieren, ersetzen wir die vollständig verbundene Struktur durch eine sternförmige Topologie, bei der jede zwei nicht benachbarte Knoten über einen gemeinsamen Relaisknoten verbunden sind. Dadurch wird die Komplexität von quadratisch auf linear reduziert, wobei gleichzeitig die Fähigkeit zur Erfassung sowohl lokaler Kompositionen als auch langer Abhängigkeiten erhalten bleibt. Die Experimente an vier Aufgaben (22 Datensätze) zeigen, dass der Star-Transformer bei mittelgroßen Datensätzen signifikante Verbesserungen gegenüber dem Standard-Transformer erzielt hat.