Command Palette
Search for a command to run...
DeLighT: Deep and Light-weight Transformer
DeLighT: Deep and Light-weight Transformer
Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi
Zusammenfassung
Wir stellen einen tiefen und leichtgewichtigen Transformer, DeLighT, vor, der eine vergleichbare oder sogar bessere Leistung als herkömmliche Transformer-basierte Modelle erzielt, jedoch deutlich weniger Parameter verwendet. DeLighT verteilt die Parameter effizienter sowohl (1) innerhalb jedes Transformer-Blocks mittels der DeLighT-Transformation, einer tiefen und leichtgewichtigen Transformation, als auch (2) über die Blöcke hinweg mittels blockweiser Skalierung, wodurch flachere und schmalere DeLighT-Blöcke in der Nähe des Eingangs und breitere sowie tiefere Blöcke in der Nähe des Ausgangs ermöglicht werden. Insgesamt sind DeLighT-Netzwerke 2,5 bis 4 Mal tiefer als herkömmliche Transformer-Modelle, verfügen jedoch über weniger Parameter und Berechnungen. Experimente auf Standardaufgaben des maschinellen Übersetzens und der Sprachmodellierung zeigen, dass DeLighT die Leistung von Baseline-Transformern mit durchschnittlich 2 bis 3 Mal weniger Parametern erreicht oder sogar übertrifft. Unser Quellcode ist unter folgender URL verfügbar: \url{https://github.com/sacmehta/delight}