Command Palette
Search for a command to run...
Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

要約
大規模言語モデル(LLM)は、多様な実世界のシナリオにおいてますます広く活用されており、それぞれのシナリオでは、ユーザーまたは組織によってカスタマイズされた独自の行動規範および安全性に関する仕様(spec)が適用されている。これらの仕様は、安全性仕様(safety-spec)と行動仕様(behavioral-spec)に分類され、シナリオによって異なり、利用者の好みや要件の変化に応じて進化する。本研究では、こうした課題を「仕様整合性(specification alignment)」として形式化し、LLMが行動的および安全性の観点から、動的かつシナリオ固有の仕様に適切に対応する能力に焦点を当てる。この課題に対処するため、階層的フィードバックと修正を用いたテスト時意思決定(Test-Time Deliberation; TTD)を活用する軽量な手法「Align3」を提案する。さらに、5つのシナリオ、103の仕様、1,500のプロンプトをカバーする、仕様整合性を測定するための統合ベンチマーク「SpecBench」を提示する。15種類の推論モデルおよび18種類の指示型モデルを対象に、Self-Refine、TPO、MoreThinkなど複数のTTD手法を用いた実験から、以下の3つの重要な知見が得られた:(i) テスト時意思決定は仕様整合性を向上させる;(ii) Align3は最小限のオーバーヘッドで安全性と有用性のトレードオフの最適境界を改善する;(iii) SpecBenchは整合性のギャップを効果的に明らかにする。これらの結果は、テスト時意思決定が実世界における仕様境界を扱うための有効な戦略である可能性を示している。