HyperAIHyperAI

Command Palette

Search for a command to run...

DeLighT:Deep かつ Light-weight な Transformer

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

概要

我々は、従来のTransformerベースのモデルと同等またはそれ以上の性能を、はるかに少ないパラメータ数で達成する、深さと軽量性を兼ね備えたTransformerモデル「DeLighT」を提案する。DeLighTは、(1) 各Transformerブロック内において「DeLighT変換」と呼ばれる深さと軽量性を特徴とする変換により、パラメータをより効率的に配分し、(2) ブロック単位でのスケーリングを用いて、入力側では浅く狭いブロック、出力側では広く深いブロックとなる構造を実現する。全体として、DeLighTネットワークは標準のTransformerモデルと比較して2.5~4倍の深さを持つが、パラメータ数および演算量は少ない。標準的な機械翻訳および言語モデリングのベンチマークタスクにおける実験結果から、DeLighTは平均して2~3倍少ないパラメータ数で、ベースラインのTransformerと同等または優れた性能を達成することが確認された。本研究のソースコードは以下のURLで公開されている:\url{https://github.com/sacmehta/delight}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています