2ヶ月前

ユニバーサルトランスフォーマー

Dehghani, Mostafa ; Gouws, Stephan ; Vinyals, Oriol ; Uszkoreit, Jakob ; Kaiser, Łukasz
ユニバーサルトランスフォーマー
要約

再帰ニューラルネットワーク(RNN)は、各新しいデータポイントで状態を更新することでデータを逐次処理し、長らくシーケンスモデリングタスクの事実上の選択肢となっています。しかし、その本質的な逐次計算により、学習が遅くなるという問題があります。最近では、フィードフォワードおよび畳み込みアーキテクチャが機械翻訳などの一部のシーケンスモデリングタスクにおいて優れた結果を示しており、さらにこれらのモデルはシーケンス内のすべての入力を並行して処理できるため、容易な並列化と高速な学習時間を実現しています。しかしながら、Transformerのような人気のあるフィードフォワードシーケンスモデルは、RNNが容易に扱える多くの単純なタスク(例えば文字列のコピーや訓練時に観測された長さを超える文字列や論理式の単純な論理的推論など)で一般化できない場合があります。私たちはUniversal Transformer (UT)を提案します。これは時間的に並行した自己注意型再帰シーケンスモデルであり、Transformerモデルの一般化として位置付けられ、上記の問題に対処しています。UTは、Transformerのようなフィードフォワードシーケンスモデルの並列化可能性と全体的な受容野と、RNNの再帰的誘導バイアスを組み合わせています。また、動的な位置ごとの停止メカニズムを追加し、これがいくつかのタスクでの精度向上に寄与することを見出しました。標準的なTransformerとは対照的に、特定の仮定のもとでUTはチューリング完全であることが示されます。我々の実験では、UTがアルゴリズムや言語理解に関する幅広いタスクで標準的なTransformerよりも優れた性能を発揮することが示されました。特にLAMBADA言語モデリングタスクでは新たな最先端の成果を達成し、WMT14英独翻訳データセットでは0.9 BLEU点数の向上が確認されました。

ユニバーサルトランスフォーマー | 最新論文 | HyperAI超神経