2ヶ月前

R-Transformer: 循環ニューラルネットワークを用いたTransformerの強化

Zhiwei Wang; Yao Ma; Zitao Liu; Jiliang Tang

要約

再帰型ニューラルネットワーク（RNN）は、長らくシーケンスモデリングの主要な選択肢として使用されてきました。しかし、非常に長期的な依存関係を捉える能力の不足と、順次計算プロセスの並列化が困難という二つの重大な問題を抱えています。したがって、最近では畳み込みと注意機構に基づいた非再帰型のシーケンスモデルが多数提案されています。特に、多頭注意機構（Multi-Head Attention）を持つTransformerモデルは、さまざまなシーケンスモデリングタスクにおいて長期的な依存関係を捉える極めて高い効果を示しています。しかしながら、これらのモデルはシーケンス内の局所構造をモデリングするための必要成分に欠けており、位置埋め込み（Position Embeddings）に大きく依存しています。位置埋め込みは効果が限定的であり、設計に多くの労力が必要です。本論文では、RNNと多頭注意機構の両方の利点を取り入れつつ、それぞれの欠点を回避するR-Transformerを提案します。提案されたモデルは位置埋め込みを使用せずに、シーケンス内の局所構造と全体的な長期的な依存関係を効果的に捉えることができます。私たちは幅広いドメインからのデータを使用してR-Transformerを評価し、実験結果はR-Transformerがほとんどのタスクで最先端の手法よりも大幅に優れていることを示しています。コードは公開されており、以下のURLからアクセスできます：\url{https://github.com/DSE-MSU/R-transformer}