HyperAIHyperAI
vor 17 Tagen

DeLighT: Deep and Light-weight Transformer

Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi
DeLighT: Deep and Light-weight Transformer
Abstract

Wir stellen einen tiefen und leichtgewichtigen Transformer, DeLighT, vor, der eine vergleichbare oder sogar bessere Leistung als herkömmliche Transformer-basierte Modelle erzielt, jedoch deutlich weniger Parameter verwendet. DeLighT verteilt die Parameter effizienter sowohl (1) innerhalb jedes Transformer-Blocks mittels der DeLighT-Transformation, einer tiefen und leichtgewichtigen Transformation, als auch (2) über die Blöcke hinweg mittels blockweiser Skalierung, wodurch flachere und schmalere DeLighT-Blöcke in der Nähe des Eingangs und breitere sowie tiefere Blöcke in der Nähe des Ausgangs ermöglicht werden. Insgesamt sind DeLighT-Netzwerke 2,5 bis 4 Mal tiefer als herkömmliche Transformer-Modelle, verfügen jedoch über weniger Parameter und Berechnungen. Experimente auf Standardaufgaben des maschinellen Übersetzens und der Sprachmodellierung zeigen, dass DeLighT die Leistung von Baseline-Transformern mit durchschnittlich 2 bis 3 Mal weniger Parametern erreicht oder sogar übertrifft. Unser Quellcode ist unter folgender URL verfügbar: \url{https://github.com/sacmehta/delight}

DeLighT: Deep and Light-weight Transformer | Neueste Forschungsarbeiten | HyperAI