Command Palette
Search for a command to run...
ショートウィンドウアテンションにより長期記憶が可能となる
ショートウィンドウアテンションにより長期記憶が可能となる
Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou
Abstract
最近の研究では、スライディングウィンドウ型のソフトマックス自己注意機構(softmax attention)層と線形再帰ニューラルネットワーク(RNN)層を組み合わせたハイブリッドアーキテクチャが、単独で用いられるいずれのアーキテクチャよりも優れた性能を示すことが示されている。しかし、ウィンドウ長の影響や、ソフトマックス自己注意機構と線形RNN層との相互作用についてはまだ十分に研究がなされていない。本研究では、スライディングウィンドウ型の自己注意機構とxLSTM型の線形RNN層から構成されるハイブリッドアーキテクチャ「SWAX」を提案する。SWAXに関する意外な発見として、大きなスライディングウィンドウを用いることで長文文脈処理性能が向上するわけではないことが挙げられる。実際、短いウィンドウサイズの自己注意機構は、長文脈の情報取得にソフトマックス自己注意機構に頼りすぎないよう促すことで、xLSTMの長期記憶の学習をより効果的に促進する。一方で、小さなスライディングウィンドウは短文脈タスクにおいて不利な影響を及ぼす。これは、やや大きなウィンドウサイズから得られる情報を活用することで解消できる。そこで本研究では、スライディングウィンドウサイズを確率的に変化させながらSWAXを学習させる手法を採用し、モデルがより長い文脈ウィンドウとxLSTMの記憶機能の両方を有効に活用するよう強制する。その結果、確率的ウィンドウサイズで学習されたSWAXは、短文脈および長文脈の両方のタスクにおいて、従来の固定ウィンドウ型自己注意機構を大きく上回る性能を発揮した。