17日前
DeLighT:Deep かつ Light-weight な Transformer
Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi

要約
我々は、従来のTransformerベースのモデルと同等またはそれ以上の性能を、はるかに少ないパラメータ数で達成する、深さと軽量性を兼ね備えたTransformerモデル「DeLighT」を提案する。DeLighTは、(1) 各Transformerブロック内において「DeLighT変換」と呼ばれる深さと軽量性を特徴とする変換により、パラメータをより効率的に配分し、(2) ブロック単位でのスケーリングを用いて、入力側では浅く狭いブロック、出力側では広く深いブロックとなる構造を実現する。全体として、DeLighTネットワークは標準のTransformerモデルと比較して2.5~4倍の深さを持つが、パラメータ数および演算量は少ない。標準的な機械翻訳および言語モデリングのベンチマークタスクにおける実験結果から、DeLighTは平均して2~3倍少ないパラメータ数で、ベースラインのTransformerと同等または優れた性能を達成することが確認された。本研究のソースコードは以下のURLで公開されている:\url{https://github.com/sacmehta/delight}