HyperAIHyperAI

Command Palette

Search for a command to run...

注意メカニズムにおける最短の棒を強化する:大規模言語モデルの文脈認識能力を向上させた効果的なツール利用のためのアプローチ

Yuhan Chen Ang Lv Ting-En Lin Changyu Chen Yuchuan Wu Fei Huang Yongbin Li Rui Yan

概要

本論文では、大規模言語モデル(LLMs)における注意配分に内在する波形パターンが、ツール利用などの文脈認識を高度に要するタスクにおけるモデルの性能に顕著な影響を与えることを示す。具体的には、文脈内の重要な情報が注意波形の谷間(トロフゾーン)に位置する場合、モデルがその情報を無視する可能性があり、結果として性能が低下する。この問題に対処するために、本研究では「Attention Buckets」という新しい推論手法を提案する。この手法は、LLMが入力を複数の並列プロセスで処理することを可能にする。各プロセスは異なる回転位置埋め込み(rotary position embedding)の基本角度を用いることで、独自の注意波形を生成する。あるプロセスの注意の谷間を、他のプロセスの注意の峰(ピーク)によって補完することで、モデルは文脈内のさまざまな位置に対する意識を強化し、重要な情報を見逃すリスクを低減する。最大規模のツール利用ベンチマークにおいて、本手法により7B規模のモデルがGPT-4と同等の最先端の性能を達成した。他のベンチマークおよび文脈的コンテンツの深い理解を要する一部のRAG(Retrieval-Augmented Generation)タスクにおいても、Attention Bucketsは顕著な性能向上を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています