
要約
Transformerモデルは、コンテキスト長に応じて計算量が増加するため、長期記憶を効果的に扱うことができない。効率化されたTransformerのバリエーションはこれまでに提案されてきたが、いずれも有限の記憶容量を持ち、古い情報を捨てざるを得ないという課題を抱えている。本論文では、従来のTransformerに無限の長期記憶を拡張した「$\infty$-former」を提案する。本モデルは、長期記憶に対して連続空間におけるアテンション機構を用いることで、アテンションの計算複雑度をコンテキスト長に依存せずに済ませ、記憶長さと精度のトレードオフを実現する。精度をより重視すべき領域を制御するために、$\infty$-formerは「スタック記憶(sticky memories)」を維持し、計算予算を一定に保ったまま任意に長いコンテキストをモデル化可能である。合成的なソートタスク、言語モデリング、文書に基づく対話生成に関する実験により、$\infty$-formerが長期間にわたるシーケンスからの情報を効果的に保持できることを示した。