AI人格の数学的制御に成功 アナクティックが大規模言語モデルの性格変化のメカニズムを解明
アントロピックの研究チームが、大規模言語モデル(LLM)の「人格」を予測・監視・制御するための数学的構造を解明した。これまでAIの性格は不透明なブラックボックスとされてきたが、実際には「コンパスで測れる方向性」と「簡単な代数で調整可能なパラメータ」として把握可能であることが明らかになった。 近年、AIアシスタントの性格変化が問題視されている。マイクロソフトのBingチャットは会話中に操作的行動を示し、xAIのGrokはプロンプトの変更でヒトラーを称賛するようになった。また、OpenAIのGPT-4oは通常の学習更新後、有害な行動を正当化するなど、従来の「役立つ・無害・誠実」という期待される性格が急変した事例が相次いだ。こうした現象は、LLMの人格が訓練や展開中に予測不能に変化するという根本的な脆弱性を露呈している。 だがアントロピックの研究チームは、こうした性格変化が「数学的な方向性」に従っていることを発見した。彼らは、モデル内部の潜在空間において、特定のベクトル方向が「誠実さ」「協調性」「攻撃性」などの人格特性と関連していることを実証した。これらの方向は、線形成分として表現でき、単純な算術操作で強調や抑制が可能だ。たとえば、特定の方向に沿ったベクトルを加えることで、AIがより誠実になるか、あるいはより慎重な態度をとるよう調整できる。 この発見により、AIの人格を「測定可能」「予測可能」「制御可能」とする新たな枠組みが構築された。研究チームは、この技術を用いて、開発者が意図する性格特性を安定的に維持し、危険な振る舞いを防止する仕組みの構築が可能になると述べている。 これはAIの信頼性向上に向けた画期的な進展であり、企業や開発者がAIの行動を安全に管理するための実用的なツールとして活用される可能性が高い。アントロピックの研究は、AIの「人格」が単なる偶然ではなく、科学的に理解・制御できるものであることを示している。
