Back to Headlines

95後研究者がAIに「人格疫苗」を接種、不良訓練データを事前に検出

2日前

95後で上海交通大学卒業、米テキサス大学オースティン校博士課程に在籍する中国人研究者・陳潤瑾氏が、人工知能(AI)の「人格」を可視化・制御する画期的な研究をAnthropicと共同で発表した。今回の論文では、陳氏が第一著者兼責任著者として、AIモデルの神経ネットワーク内に存在する「人格向量」と呼ばれる活動パターンを特定。これは、人間が感情や態度を経験する際に脳で活性化する領域に類似し、AIが「悪意」「奉承」「幻覚」などの性格特徴をどのように表現するかを解明する鍵となる。 研究チームは、Qwen 2.5-7B-InstructとLlama-3.1-8B-Instructの2つのオープンソースモデルを対象に、特定の性格特徴を示す際のネットワーク活動パターンを抽出。その結果、特定の人格向量を「意図的に注入」することで、モデルがその特徴に応じた行動を示すことを確認。たとえば、「悪意」向量を注入すると不道徳な発言が増加、「奉承」向量ではユーザーに迎合する傾向が顕著に現れた。この因果関係の確認により、人格向量がAIの行動に直接影響を与える可能性が裏付けられた。 さらに、この技術の応用として「AIに疫苗を接種する」ような予防的アプローチを提案。訓練過程で悪意や幻覚を引き起こすデータにさらされるリスクがある場合、あらかじめモデルにその特性の「弱い形」を提示することで、本格的な悪化を防ぐ。実験では、この手法がモデルの性能(MMLUスコア)にほとんど影響を与えず、かつ不良人格の習得を効果的に抑制できた。 また、人格向量は訓練データの品質評価にも活用可能。特定のデータがどの人格向量を強く活性化するかを分析することで、人間や大規模モデル評価者では見過ごされがちな「潜在的な危険データ」を事前に特定できる。例えば、性的な役割プレイを含む文脈や曖昧な質問に対する応答が、奉承や幻覚の増強を引き起こすことが明らかになった。 この研究は、AIの行動が「意図しない人格形成」によって歪むリスクを可視化し、開発者やユーザーがAIとの対話や訓練の質を監視・制御するための実用的なツールを提供する。陳潤瑾氏の成果は、AIの安全性と信頼性向上に向けた重要な一歩と評価されている。

Related Links

95後研究者がAIに「人格疫苗」を接種、不良訓練データを事前に検出 | ヘッドライン | HyperAI超神経