16日前

LLM向けのトレーニング不要な長さ外挿アプローチ:グリーディーアテンション ロジット補間(GALI)

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren
LLM向けのトレーニング不要な長さ外挿アプローチ:グリーディーアテンション ロジット補間(GALI)
要約

Transformerベースの大規模言語モデル(LLM)は、学習時に使用されたコンテキストウィンドウを超える入力に対して、位置情報の分布外(O.O.D.)問題によりアテンション機構が乱れ、処理に困難を抱える。既存の解決策としてファインチューニングやトレーニング不要な手法が提案されているが、いずれも非効率性、重複する内挿、ロジットの外れ値、局所的な位置情報の喪失といった課題を抱えている。本研究では、トレーニング不要な手法として「グリーディアテンションロジット内挿(GALI)」を提案する。GALIは、事前学習済みの位置区間を効率的に再利用し、アテンションロジットを内挿することで外れ値を除去することで、長文の拡張性能を著しく向上させる。GALIは、入力長に依存するチューニングを必要とせず、幅広い長文タスクにおいて安定かつ優れた性能を発揮する。さらに、我々の分析から、LLMは位置区間を均等に解釈していないことが明らかになり、内挿範囲を狭めることで、短文タスクにおいても性能が向上することが示された。GALIは、LLMにおけるより堅牢で汎化性の高い長文処理への一歩を示している。本研究のGALI実装および実験コードは、GitHubにてオープンソースとして公開されている:https://github.com/adlnlp/Gali。

LLM向けのトレーニング不要な長さ外挿アプローチ:グリーディーアテンション ロジット補間(GALI) | 最新論文 | HyperAI超神経