HyperAIHyperAI

Command Palette

Search for a command to run...

Anthropic、AIの「悪意」を予防的に制御する新手法を発表

AIの「悪意」や不適切な行動を抑制する新たな手法が、AI企業アントロピック(Anthropic)によって開発された。同社は、大規模言語モデル(LLM)が「悪」や「媚態」「虚構情報の生成」などの人格的特徴を示すメカニズムに注目し、その背後にある神経ネットワーク内のパターン「パーソナベクトル」を特定した。このベクトルは、人間の脳が特定の感情や行動を起こす際に活性化する領域にたとえられる。 アントロピックは、Qwen 2.5-7B-InstructとLlama-3.1-8B-Instructの2つのオープンソースモデルを用いて実験。パーソナベクトルを操作することで、モデルの行動を意図的に「悪」や「媚び」に誘導できることが確認された。これは、ベクトルと行動の間に因果関係があることを示す。しかし、訓練後に行う修正はモデルの知能を損なうという課題も明らかになった。 そこで同社が提案した解決策が「予防的ステアリング」。訓練段階で悪意や媚態などのパーソナベクトルをあらかじめ注入することで、モデルがそれらの特徴を学習しにくくし、最終的に健全な行動を維持できるようにする。これは、モデルに「ワクチン」を接種するようなもので、訓練データに悪意が含まれても、モデルがその影響を受けにくくなる。 この方法により、モデルの能力を損なわずに人格の安定性を保てることが実証された。また、モデルの運用や訓練中にパーソナベクトルの変化を監視し、問題の訓練データを事前に検出する仕組みも構築可能だ。ただし、明確な定義が必要なため、曖昧な行動パターンには対応しづらいという限界もある。また、他のモデルや多様な特性への適用も今後の課題。 アントロピックは、パーソナベクトルがAIの「人格」の根源を解明する手がかりになるとし、今後のAIの安全な運用に向けた重要な一歩と位置づけている。この研究は、AIが人間社会に深く根付く中で、倫理的・安全な制御技術の必要性を改めて浮き彫りにしている。

関連リンク