9日前
すべての記憶が等しくない:有効期限切れによって忘却を学ぶ
Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan

要約
注目機構(Attention mechanisms)は、長期記憶を必要とする系列モデリングタスクにおいて有望な成果を示している。近年の研究では、記憶の保持および保存に伴う計算コストを低減するためのメカニズムが検討されている。しかし、過去のすべての情報が同等に記憶する価値があるわけではない。本研究では、最も重要な情報を保持し、関係のない情報を適切に「失効(expire)」するよう学習する手法「Expire-Span」を提案する。この記憶の失効メカニズムにより、Transformerモデルは過去数万ステップにわたる情報を効率的に注目(attend)可能となり、すべての過去ステップの状態を保存する必要がなくなる。実験により、Expire-Spanが重要な情報を正確に識別・保持できることを示し、特にこの機能を試すことを目的とした強化学習タスクにおいて、優れた性能を達成できることを確認した。次に、Expire-Spanが数万単位の記憶サイズにまでスケーラブルであり、文字レベルの言語モデリングやフレーム単位の移動物体認識といった極めて長いコンテキストを要するタスクにおいて、新たな最先端の性能を達成することを示した。最後に、既存のアプローチと比較してExpire-Spanの効率性を分析し、訓練速度が速く、メモリ使用量も少ないことを実証した。