16日前
セグメント化再帰型Transformer:効率的なシーケンス対シーケンスモデル
Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy

要約
Transformerは、言語や視覚を含む多様な分野において優れた性能を示している。しかし、シーケンス長の増加に伴い計算コストが二次関数的に増大するため、リソース制約の厳しいアプリケーションでは使用が困難となる。この課題に対処するため、本研究では全シーケンスを複数のセグメントに分割し、個々のセグメントに対してアテンションを適用するアプローチを提案する。本研究では、セグメント化された(局所的)アテンションと再帰的アテンションを統合した「セグメント化再帰型Transformer(SRformer)」を提案する。アテンション窓の長さを短縮することによる情報損失を、再帰的アテンションによってセグメント間で情報を集約することで補完する。SRformerは、再帰的累積・発火(Recurrent Accumulate-and-Fire: RAF)ニューロンが持つ内在的な記憶機能を活用し、キーと値の累積積を効率的に更新する。セグメント化アテンションと軽量なRAFニューロンの組み合わせにより、提案手法は計算効率とメモリ効率を両立している。このアプローチにより、低コストで逐次処理能力を持つモデルの構築が可能となる。本手法はT5およびBART型Transformerに適用され、CNN-DailyMail、XSUM、ArXiv、MediaSUMといった要約データセット上で評価された。特に、異なるサイズのセグメント入力を用いた場合、従来のセグメント化TransformerよりもROUGE1スコアで6〜22%の向上を達成し、他の再帰型Transformerアプローチを上回った。さらに、完全アテンションと比較して、クロスアテンションの計算複雑度を約40%削減する効果が確認された。