HyperAIHyperAI
vor 10 Tagen

Subformer: Ein parametersparender Transformer

{Yutaka Matsuo, Edison Marrese-Taylor, Machel Reid}
Subformer: Ein parametersparender Transformer
Abstract

Der Aufstieg des Transformers kann mit Recht als treibende Kraft hinter vielen der jüngsten Fortschritte in der natürlichen Sprachverarbeitung angesehen werden. Dennoch zeigen jüngste Studien, dass das Modell erheblich überparametrisiert ist, was zu einer ineffizienten Nutzung von Parametern und hohen Rechenkosten beim Training führt. Inspiriert durch den Erfolg von Parameter-Teilung in vortrainierten tiefen kontextuellen Wortrepräsentations-Encodern untersuchen wir Methoden zur Parameter-Teilung im Kontext von Transformers, wobei wir uns speziell auf Encoder-Decoder-Modelle für sequenz-zu-Sequenz-Aufgaben wie die maschinelle Übersetzung konzentrieren. Wir führen eine Analyse verschiedener Techniken zur Parameter-Teilung und -Reduktion durch und entwickeln das Subformer – ein parameter-effizientes, auf Transformers basierendes Modell, das die neu vorgeschlagene Sandwich-artige Parameter-Teilungstechnik mit der selbst-attentiven Embedding-Faktorisierung (SAFE) kombiniert. Experimente in der maschinellen Übersetzung, abstraktiven Zusammenfassung und Sprachmodellierung zeigen, dass das Subformer das klassische Transformer-Modell sogar bei erheblich geringerem Parameteraufwand übertrifft. Auf dem WMT'14-Testset Englisch-Deutsch erreichen wir eine vergleichbare Leistung wie das Transformer-Base-Modell und übertreffen es gelegentlich um +0,1 BLEU, dabei jedoch 40 % weniger Parameter verwenden. Zudem erzielen wir dieselbe Leistung wie das Transformer-Big-Modell mit 40 % weniger Parametern und überbieten dieses um 0,7 BLEU bei einer Reduktion um 12 Mio. Parameter. Außerdem übertrifft das Subformer das Standard-Transformer-XL-Modell deutlich, indem es eine signifikante Reduktion der Perplexität um 3,6 erreicht, während gleichzeitig 37 % weniger Parameter eingesetzt werden.