17日前

注意メカニズムにおける最短の棒を強化する：大規模言語モデルの文脈認識能力を向上させた効果的なツール利用のためのアプローチ

Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan

要約

本論文では、大規模言語モデル（LLMs）における注意配分に内在する波形パターンが、ツール利用などの文脈認識を高度に要するタスクにおけるモデルの性能に顕著な影響を与えることを示す。具体的には、文脈内の重要な情報が注意波形の谷間（トロフゾーン）に位置する場合、モデルがその情報を無視する可能性があり、結果として性能が低下する。この問題に対処するために、本研究では「Attention Buckets」という新しい推論手法を提案する。この手法は、LLMが入力を複数の並列プロセスで処理することを可能にする。各プロセスは異なる回転位置埋め込み（rotary position embedding）の基本角度を用いることで、独自の注意波形を生成する。あるプロセスの注意の谷間を、他のプロセスの注意の峰（ピーク）によって補完することで、モデルは文脈内のさまざまな位置に対する意識を強化し、重要な情報を見逃すリスクを低減する。最大規模のツール利用ベンチマークにおいて、本手法により7B規模のモデルがGPT-4と同等の最先端の性能を達成した。他のベンチマークおよび文脈的コンテンツの深い理解を要する一部のRAG（Retrieval-Augmented Generation）タスクにおいても、Attention Bucketsは顕著な性能向上を示した。