
要約
トランスフォーマーの登場は、自然言語処理分野における近年の多くの進展を牽引した要因と評価できる。しかし、最近の研究で示されたように、モデルは性能向上に貢献しているものの、パラメータ数が著しく過剰に設計されており、パラメータの利用効率が低く、学習にかかる計算コストも非常に高いという問題を抱えている。事前学習済みの深層コンテキスト依存型単語表現エンコーダーにおけるパラメータ共有の成功例に着想を得て、本研究では、機械翻訳などシーケンス・トゥ・シーケンスタスクに適したエンコーダー・デコーダー型トランスフォーマーモデルにおけるパラメータ共有手法の検討を行う。異なるパラメータ共有/削減手法を体系的に分析した上で、新しく提案された「サンドイッチ型パラメータ共有」技術と自己注意型埋め込み因子分解(SAFE)を統合した、パラメータ効率の高いトランスフォーマーに基づくモデル「Subformer」を構築した。機械翻訳、要約生成、言語モデリングの実験において、Subformerは使用パラメータ数を大幅に削減しても、トランスフォーマーを上回る性能を達成することを示した。WMT'14英語-ドイツ語テストセットにおいて、トランスフォーマー・ベースモデルと同等の性能を発揮し、場合によっては+0.1 BLEUスコアで上回る結果を得た一方で、パラメータ数を40%削減した。また、トランスフォーマー・ビッグと同等の性能を達成しつつ40%のパラメータ削減を実現し、さらに1200万パラメータ削減で0.7 BLEUスコアの向上も達成した。さらに、標準的なトランスフォーマー-XLモデルと比較しても、37%のパラメータ削減で3.6の著しい perplexity の低減を実現し、優れた性能を発揮した。