Segmented Recurrent Transformer: Ein effizienter Sequenz-zu-Sequenz-Modell

Transformers haben eine dominierende Leistung in einer Vielzahl von Anwendungsbereichen wie Sprache und Vision gezeigt. Ihre Rechenkosten steigen jedoch quadratisch mit der Sequenzlänge an, was ihre Anwendung in ressourcenbeschränkten Umgebungen erschwert. Um diesem Problem entgegenzuwirken, teilen wir die gesamte Sequenz in Segmente auf und wenden die Aufmerksamkeit jeweils auf die einzelnen Segmente an. Wir stellen einen segmentierten rekurrenten Transformer (SRformer) vor, der segmentierte (lokale) Aufmerksamkeit mit rekurrenter Aufmerksamkeit kombiniert. Der durch die Verkleinerung des Aufmerksamkeitsfensters verursachte Informationsverlust wird durch die Aggregation von Informationen über Segmente mittels rekurrenter Aufmerksamkeit kompensiert. Der SRformer nutzt die inhärente Speicherkapazität von Recurrent Accumulate-and-Fire (RAF)-Neuronen, um das kumulative Produkt aus Schlüsseln und Werten zu aktualisieren. Die Kombination aus segmentierter Aufmerksamkeit und leichtgewichtigen RAF-Neuronen gewährleistet die Effizienz des vorgeschlagenen Transformers. Dieser Ansatz ermöglicht Modelle mit sequenzieller Verarbeitungsfähigkeit bei deutlich reduziertem Rechenaufwand und Speicherverbrauch. Wir wenden die vorgeschlagene Methode auf T5- und BART-Transformers an. Die modifizierten Modelle werden anhand von Zusammenfassungsdatasets wie CNN-DailyMail, XSUM, ArXiv und MediaSUM evaluiert. Insbesondere erzielt das vorgeschlagene Modell bei Verwendung segmentierter Eingaben unterschiedlicher Größe ROUGE1-Scores, die um 6–22 % höher sind als die eines herkömmlichen segmentierten Transformers und die anderer rekurrenter Transformer-Ansätze übertreffen. Zudem reduziert das vorgeschlagene Modell im Vergleich zur vollständigen Aufmerksamkeit die Rechenkomplexität der Kreuzaufmerksamkeit um etwa 40 %.