Command Palette

Search for a command to run...

16日前

CritiCal:批判はLLMの不確実性または信頼度の補正に役立つだろうか?

Qing Zong Jiayu Liu Tianshi Zheng Chunyang Li Baixuan Xu Haochen Shi Weiqi Wang Zhaowei Wang Chunkit Chan Yangqiu Song

CritiCal:批判はLLMの不確実性または信頼度の補正に役立つだろうか?

要約

大規模言語モデル(LLM)における信頼度の正確なキャリブレーションは、高リスク分野での安全な利用にとって不可欠であり、明確に言語化された信頼度はユーザーの信頼を高める。従来の方法では、参照信頼度表現を模倣するアプローチが用いられるが、正確な信頼度評価に必要な推論を捉えきれていない。本研究では、自然言語による批判(natural language critiques)を解決策として提案する。これは、正確なゴールド信頼度ラベルが得られにくく、しばしば複数回の生成を要するため、信頼度キャリブレーションに特に適している。本論文では、自然言語による批判が言語化された信頼度をどのように向上させるかを検討し、以下の2点に焦点を当てる。(1)何を批判すべきか:質問中心の不確実性(uncertainty)か、回答特有の信頼度(confidence)か。分析の結果、信頼度は選択式タスクに適しており、不確実性は開発型(open-ended)のシナリオで優れた性能を発揮することが示された。(2)どのように批判するか:自己批判(self-critique)か、批判キャリブレーション学習(critique calibration training)か。本研究では、LLMが単なる正解率の向上を越えて、自身の信頼度を批判・最適化できる「Self-Critique」を提案。さらに、自然言語による批判を活用して信頼度キャリブレーションを改善する新たな「CriticCal」(Critique Calibration)学習法を提案。これは、直接的な数値最適化にとどまらず、文脈に応じた信頼度の調整を可能にする。実験の結果、CriticCalはSelf-Critiqueおよび他の競合手法を大きく上回り、複雑な推論タスクにおいて、教師モデルであるGPT-4oさえも凌駕する性能を示した。さらに、CriticCalは分布外(out-of-distribution)の設定においても堅牢な汎化性能を示し、LLMの信頼性の向上に貢献している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CritiCal:批判はLLMの不確実性または信頼度の補正に役立つだろうか? | 論文 | HyperAI超神経