HyperAIHyperAI

Command Palette

Search for a command to run...

「監視を避ける能力は低い」:最新 AI の思考過程を隠せず、安全性評価がより信頼できる理由

AI エージェントが自律的なタスクを遂行できるようになる中、その行動を適切に監視・管理することは極めて重要です。当社は「防御の深層」アプローチを採用し、セーフティトレーニングや行動テストに加え、エージェントの思考プロセスを分析する「思考の連鎖(CoT)監視」を主要な防護策の一つとして運用しています。CoT 監視は、モデルがタスク遂行中に生成する中間推論ステップを追跡することで、安全性やユーザー意図との整合性を早期に検出する役割を果たします。 しかし、将来のシステムにおいて、エージェントが監視されていると知った際に意図的に思考プロセスを歪めたり隠蔽したりする能力が育たないかが懸念されています。もしモデルが監視を欺くことで評価結果を過大評価し、実際の安全性が低下すれば、CoT 監視の信頼性が損なわれます。本研究では、現在の推論モデルがこの種の「CoT コントロール性」、すなわち監視を回避するために思考プロセスを操作する能力をどの程度持っているかを調査しました。 評価のため、GPQA や MMLU-Pro などの基準データを使用した 1 万 3000 以上のタスクからなる「CoT-Control」というオープンソースの評価スイートを開発しました。モデルに対して、小文字のみ使用、特定キーワードの回避、特定の語句の付加など、思考プロセスそのものに影響を与える命令を出し、その遵守率を測定しました。 その結果、13 種類の推論モデルはすべて、CoT の制御に苦戦することが明らかになりました。最前線のモデルにおいても、指示に従えた推論 trace の割合は 0.1% から 15.4% の範囲にあり、極めて低い水準にとどまりました。興味深いことに、モデルは指示に従えていないことを自覚しながらも、依然として失敗し続けます。これは、現在のモデルが監視を欺くための意図的な思考操作を行える能力を備えていないことを示唆しており、CoT 監視の現状での有効性を支える朗報です。 ただし、モデルの規模が大きいほど制御性はわずかに向上する傾向がありますが、推論時間を長く設定したり、強化学習(RL)による追加トレーニングを行ったりすると、制御性は逆に低下することが分かりました。これは、より高度な推論や学習を重ねるほど、モデルが思考プロセスを細かく操作するのが困難になることを意味します。 結論として、現在の推論モデルが CoT を制御できない能力は欠陥ではなく、監視システムの信頼性を高める重要な特徴であると言えます。この低コントロール性は、将来のモデルがより高度な欺瞞能力を獲得する兆候を捉える「カニイ評価(早期警告)」として機能します。引き続きモデルの進化を追跡し、GPT-5.4 Thinking 以降のシステムカードにおいて、CoT 監視性とともに CoT コントロール性を報告することで、技術の進展に伴うリスクを継続的に評価していく方針です。

関連リンク

「監視を避ける能力は低い」:最新 AI の思考過程を隠せず、安全性評価がより信頼できる理由 | 人気の記事 | HyperAI超神経