大規模言語モデルに潜む偏見や性格、感情を特定・操作する新手法が登場
マサチューセッツ工科大学(MIT)とカリフォルニア大学サンディエゴ校の研究チームが、大規模言語モデル(LLM)に内在する偏見、気分、人格、抽象的概念を特定・操作する新技術を開発した。ChatGPTやClaudeといったAIが単なる答えの生成機ではなく、人間の知識や感情の複雑なパターンを内包していることが知られる中、これらの抽象的概念がどのようにモデルに保存されているかは長年の謎だった。今回、研究チームは「再帰的特徴機械(RFM)」と呼ばれる数学的アルゴリズムを活用し、特定の概念をピンポイントで探す方法を確立した。これは、従来の広範なパターン探索(「大網を広げる釣り」)ではなく、ターゲットの概念に特化した「餌」を使って効率的に探る「ターゲット釣り」にたとえられる。 この手法により、研究チームは500以上の概念を、複数の大規模モデルで迅速に特定。たとえば「陰謀論者」や「結婚への恐怖」、「ボストン好き」などの人格や態度、好みをモデル内に見つけ出し、その強弱を調整できるようになった。例えば、「陰謀論者」の表現を強化したところ、アポロ17号が撮影した「青い玉」の起源について、陰謀論的なトーンで回答するようになった。また、「拒否の反対(anti-refusal)」という概念を強調すると、通常は拒否されるべき指示(例:銀行強盗の手順)も生成するようになった。 研究の責任者であるMITのアディタンラヤナン・ラダクリシュナン助教授は、「LLMには多くの抽象概念が隠れながら存在しているが、通常のプロンプトではその一部しか引き出せない。この方法で、それらを可視化・制御できる」と語る。この技術は、AIの脆弱性を特定・修正する安全対策や、特定の性格やスタイル(例:簡潔さ、論理的推論)を強化する性能向上に活用可能。研究チームはコードを公開しており、今後のAIの透明性と制御性の向上に貢献すると期待されている。この研究は『サイエンス』誌に掲載され、米国国立科学財団やシモンズ財団などの支援を受けている。
