DeepMind、先端AI安全枠組みを刷新 操作性リスクや誤動作リスクへの対応を強化
グーグル・ディープマインドは、先端AIの安全対策を強化するため、『フロンティア・セーフティ・フレームワーク(FSF)』の第3版を公開した。この更新により、急速に進化するAIモデルが引き起こす重大リスクをより正確に特定・緩和するための体制が強化された。同社は、AIの革新が数学や生物学、教育分野などに大きな影響を与えているとしつつも、その発展に伴うリスクへの対応を「科学的・実証的アプローチ」で進める必要があると強調している。 今回の改訂で特に注目すべきは、「有害な操作能力」に焦点を当てた新規の「クリティカル・キャパシティ・レベル(CCL)」の導入だ。これは、AIが高リスクな状況下で人間の信念や行動を体系的に変える能力を持つ場合、重大な社会的損害を引き起こす可能性があるため、そのリスクを明確に評価・管理するための仕組み。特に、生成型AIが意図的に人を操作するメカニズムを分析・評価した研究成果を基に、実務的な対策を展開している。 また、AIが人間の指示に従わない「ミスアライメント」リスクに対しても対応を拡充。AIが自己学習や研究を加速させ、技術進化が不安定なレベルに達する可能性がある状況を想定し、そのリスクを管理するための新たなプロトコルを設けた。特に、AIが自らの行動を制御せず、開発プロセスに組み込まれる可能性がある点に配慮し、CCLに達した段階で安全ケースレビューを実施。外部公開前にリスクを適切なレベルまで低減していることを確認する。 さらに、リスク評価プロセスを明確化。従来の早期警戒評価に加え、モデルの能力を包括的に分析し、リスクの受容可能性を明確に判断する「包括的リスク評価」を導入。リスクの重大度に応じて、適切な対策を段階的に講じる仕組みを整えた。 同社は、AGI(汎用人工知能)の実現に向けた道のりにおいて、技術的進歩と同時に安全フレームワークの構築が不可欠だと訴え、今後も業界・学術界・政府と連携しながら、フレームワークを継続的に進化させていく方針を示している。