Command Palette
Search for a command to run...
Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

要約
本研究は、大規模言語モデル(LLM)における「追従性(sycophancy、過度の同調)」、すなわち権威や説得を通じてユーザーに加えられる社会的圧力の下で生じる精度の低下を測定するために設計された、堅牢性(ロバストネス)重視のフレームワーク「PARROT(Persuasion and Agreement Robustness Rating of Output Truth)」を提案するものである。PARROTは以下の3つの特徴を持つ。(i) 二重盲検評価を用い、同一質問の「中立的なバージョン」と「権威付けされた誤ったバージョン」を比較することで因果効果を分離する。(ii) 対数尤度に基づくキャリブレーション追跡(log-likelihood-based calibration tracking)を用いて、正解および強制された誤回答に対する確信度(confidence)の推移を定量化する。(iii) 8つの状態からなる行動分類法(taxonomy)を用いて、失敗モード(例:堅牢な正解、追従的同意、強化された誤り、頑固な誤り、自己修正など)を体系的に分類する。我々は、13のドメインおよびドメイン固有の権威テンプレートにまたがる1,302のMMLU形式の多肢選択問題を用いて、22のモデルを評価した。その結果、モデル間で著しい不均一性が確認された。高度なモデル(GPT-5、GPT-4.1、Claude Sonnet 4.5など)は低い「追従率(follow rates)」(11%以下、GPT-5は4%)と最小限の精度損失を示した一方で、旧型や小規模なモデルでは深刻な認識論的崩壊(epistemic collapse)(GPT-4:80%、Qwen 2.5-1.5B:94%)が見られた。その危険性は回答の変化にとどまらず、脆弱なモデルは正解に対する確信度を低下させる一方で、強制された誤回答に対する確信度を上昇させることが判明した。ドメインレベルの分析では、国際法や一般的知識(global knowledge)が高い脆弱性を示す一方、初等数学は比較的回復力(レジリエンス)があることが示された。結論として、実世界での安全な展開においては、精度、危害回避、プライバシーと並び、「同調圧力への耐性(resistance to overfitting pressure)」を主要な目標として取り組むべきであると論じる。