MUSE:シーケンス・トゥ・シーケンス学習のための並列多スケールアテンション

順序から順序への学習(sequence-to-sequence learning)において、自己注意機構(self-attention mechanism)は極めて有効であることが示され、多くのタスクで顕著な性能向上をもたらしている。しかし、自己注意機構にも固有の課題が存在する。自己注意機構は極めて長い依存関係をモデル化できる一方で、深層部では注意が単一のトークンに過度に集中しがちであり、局所情報の十分な活用が難しく、長文の表現に課題が生じる。本研究では、系列データに対して並列的な多スケール表現学習を探索し、長距離および短距離の言語構造の両方を捉えることを目的とする。この目的の下、並列多スケール注意機構「Parallel MUlti-Scale attEntion(MUSE)」およびその簡略版「MUSE-simple」を提案する。MUSE-simpleは、並列的な多スケール系列表現学習の基本的なアイデアを備えており、自己注意機構とポイントワイズ変換を用いて、異なるスケールで系列を並列に符号化する。MUSEはMUSE-simpleを基盤とし、畳み込み(convolution)と自己注意機構を組み合わせることで、より多様なスケールから系列表現を学習することを試みる。機械翻訳を主なタスクとして評価した結果、Transformerを大幅に上回る性能向上が得られ、特に長文の翻訳において顕著な改善が確認された。さらに重要な点として、概念的には単純であるにもかかわらず、実際の成功には細かな設計上の配慮が不可欠であり、多スケール注意機構は統一された意味空間に基づく必要があることが明らかになった。一般的な設定下で、提案モデルは顕著な性能を達成し、3つの主要な機械翻訳タスクにおいて、これまでのすべてのモデルを上回った。また、並列性を活かした構造のため、推論の高速化の可能性も示唆されている。コードは https://github.com/lancopku/MUSE にて公開される予定である。