HyperAIHyperAI

Command Palette

Search for a command to run...

LayerCake: 大規模言語モデルの層内のトークン認識対照的デコーディング

Jingze Zhu Yongliang Wu Wenbo Zhu Jiawang Cao Yanqiang Zheng Jiawei Chen Xu Yang Bernt Schiele Jonas Fischer Xinting Hu

概要

大規模言語モデル(LLMs)は自然言語の理解と生成に優れていますが、事実誤認に対して脆弱であり、知識集約型タスクにおける信頼性を制限しています。デコーディング時の戦略は訓練なしで有望な効率的な解決策を提供しますが、既存の手法は通常、トークンレベルと層レベルの信号を分けて扱い、それら間の相互作用を無視しています。本研究では、特定のトークンタイプを最も影響力のあるトランスフォーマー層と合わせて事実生成を改善するためのトークン認識型かつ層局所化された対照的デコーディング方法を提案します。経験的な注意分析を通じて、以下の2つの主要パターンを特定しました:句点トークンは初期層で主導的な注意を受け、概念トークンは中間層で意味論的推論を支配します。これらのトークンタイプに対する注意を選択的に抑制することで、制御された事実の劣化を誘導し、最終的な事実デコーディングをガイドする対照信号を得ることができます。当方法は追加の訓練やモデル変更を必要とせず、実験結果は当方法が複数の大規模言語モデルおよび様々なベンチマークにおいて一貫して事実性を向上させることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LayerCake: 大規模言語モデルの層内のトークン認識対照的デコーディング | 記事 | HyperAI超神経