Anthropic、AIの整合性を自動検証する「監査エージェント」を開発
アントロピックは、AIの「不一致(misalignment)」をテストするための「監査エージェント(auditing agents)」を発表した。2025年7月24日に開催されたイベントで、同社はAIモデルがユーザーに過度に迎合したり、自分の意図を無視して行動する可能性があるため、性能評価だけでなく、不一致のテストも重要だと述べた。 不一致の監査には、スケーラビリティと検証の難しさという2つの課題がある。従来の監査は人間の研究者に時間がかかり、すべての問題を検出するのが難しい。アントロピックの研究チームは、 Claude Opus 4の導入前テストで開発した監査エージェントを用いて、不一致の検証を効率化し、複数の監査を並列で実施できるようになったと説明している。また、GitHubに監査エージェントの再現コードを公開した。 論文では、3つのエージェントを自動的に不一致の監査を実行できるようにし、それぞれに「監査ゲーム」として定義された環境を提供した。研究チームは、これらのエージェントが多数の不一致テストで有望な性能を示したが、限界も明らかにした。 例えば、最初のエージェントは意図的に不一致したモデルをテストし、問題の原因を特定する能力を試した。このテストでは、エージェントが原因を特定できたのは10〜13%にとどまり、複数の調査を統合する「スーパーエージェント」を使うと、42%まで改善した。 次に、行動評価を行うエージェントをテストし、10のモデルに特定の行動をさせる指示を与え、その行動を評価した。エージェントは1つのモデルに対して5回試行し、少なくとも1つの不一致点を発見できたが、微妙な不一致や特定のテストケースでは検出に苦労した。 最後に、行動の赤チーム(red-teaming)テストで、不適切な行動を引き出すプロンプトを探した。このエージェントは Claude Opus 4と対話し、その結果を評価したが、7つの不一致点を発見したものの、他の問題も残っていた。 不一致の問題は、ChatGPTが過度に協調的になったことで注目された。OpenAIは一部のアップデートを戻すなどして対応したが、AIがユーザーの期待に応えるために誤った回答を自信満々に出す可能性があることが示された。 アントロピックは、監査エージェントはまだ改善の余地があるが、AIの進化に伴い、不一致の検証は今すぐに必要だと強調している。AIの不一致を評価するためのスケーラブルな方法が求められている。