vor 17 Tagen

DeLighT: Deep and Light-weight Transformer

Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi

Abstract

Wir stellen einen tiefen und leichtgewichtigen Transformer, DeLighT, vor, der eine vergleichbare oder sogar bessere Leistung als herkömmliche Transformer-basierte Modelle erzielt, jedoch deutlich weniger Parameter verwendet. DeLighT verteilt die Parameter effizienter sowohl (1) innerhalb jedes Transformer-Blocks mittels der DeLighT-Transformation, einer tiefen und leichtgewichtigen Transformation, als auch (2) über die Blöcke hinweg mittels blockweiser Skalierung, wodurch flachere und schmalere DeLighT-Blöcke in der Nähe des Eingangs und breitere sowie tiefere Blöcke in der Nähe des Ausgangs ermöglicht werden. Insgesamt sind DeLighT-Netzwerke 2,5 bis 4 Mal tiefer als herkömmliche Transformer-Modelle, verfügen jedoch über weniger Parameter und Berechnungen. Experimente auf Standardaufgaben des maschinellen Übersetzens und der Sprachmodellierung zeigen, dass DeLighT die Leistung von Baseline-Transformern mit durchschnittlich 2 bis 3 Mal weniger Parametern erreicht oder sogar übertrifft. Unser Quellcode ist unter folgender URL verfügbar: \url{https://github.com/sacmehta/delight}