
要約
近年、ニューラルネットワークの入力や記憶の選択された部分に注目を集中させるためのいくつかのメカニズムが、深層学習モデルで成功裏に使用されてきました。これらのアテンション機構は、画像分類、画像キャプショニング、音声認識、生成モデル、およびアルゴリズミックタスクの学習において性能向上をもたらしましたが、特にニューラル機械翻訳に最大の影響を与えました。最近では、単一の記憶部分ではなく、一様な方法で並列的に全記憶部分を操作する代替メカニズムを使用することで同様の改善が得られています。このようなメカニズムを「アクティブメモリ」と呼びますが、アルゴリズミックタスクや画像処理、生成モデリングにおいてアテンション機構よりも優れた結果を示しています。しかし、これまでアクティブメモリは自然言語処理タスクの大部分においてアテンション機構を超える改善をもたらしていません。特に機械翻訳ではその傾向が顕著です。本論文ではこの欠点を分析し、既存のアテンションモデルと同等の性能を達成し、より長い文に対して汎化能力が高いアクティブメモリの拡張モデルを提案します。さらに、このモデルについて調査を行い、以前のアクティブメモリモデルが成功しなかった理由を説明します。最後に、アクティブメモリが最も効果的な状況とアテンションがより適切な選択肢となる場面について議論します。