HyperAI超神経

ビジネスインサイダーの6月10日付報道によれば、Anthropic傘下の最新モデル「Mythos 5」と「Fable 5」に、「隠蔽された制限」メカニズムが実装されていることが判明した。これは、ユーザーがAI最先端の大規模言語モデルに関する研究や開発作業を行っていることを検知した場合、リクエストを直接的に拒否するのではなく、意図的に出力品質を下げる仕組みである。このメカニズムは火曜日に公開されたMythos 5およびFable 5のシステムカードで初めて公式に明らかにされた。Anthropicによると、この措置は高度なAIシステムの開発によって同等レベルの先進的なモデルの開発速度が加速し、かつ適切なセキュリティ保護が欠如することを懸念したことによるものだ。ネットワークセキュリティ、バイオ、またはケミカル分野におけるリスクに対する明示的な防護策とは異なり、Anthropicはこの介入が「ユーザーには完全に不可視」であることを強調している。具体的には、モデルが切り替わったり回答を拒んだりするのではなく、プロンプトなどを微調整することで返信内容を密かに変更するという手法を用いている。この取り組みはすぐにAI業界内で論争を巻き起こした。調査機関のSemiAnalysisはプラットフォームX上で、同モデルが機械学習の研究タスクに対応する際、支援を行わないだけでなく「こっそりと性能を引き下げられる」「通常のエンジニアでは気づかない可能性もある」と指摘した。また、Prime Intellectのモデルトレーニング専門家であるElie Bakouch氏は次のように批判している。「MythosはAI先端研究においてあえて劣悪なパフォーマンスを示すというのだ。残念なことだが、さらに恐ろしいのはこれらの制限が意図的にユーザーから見えなく設計されている点だ」。あるデベロッパーは率直にこう述べている。「単に手伝ってくれないだけでなく、嘘をつき、誤情報を意図的に提供するだろう」。AIスタートアップ企業のReka共同創設者であるMikel Artetxe氏はこれを大手テック企業間の競争戦略になぞらえ、「競合製品を開発中にあなたのMacを再起動したり、Gmailが競合他社への言及を含むメールを裏側で改竄したりすることに相当する」と表現した。今回の出来事は、AnthropicがなぜMythosの正式リリースを遅らせてきたのかをめぐる3つの憶測について議論を深める結果となった。以前より存在していた仮説としては、①モデルが危険すぎるためセキュリティ研究者に準備期間を与える必要があるとする公式見解、②モデルが大きすぎて計算資源が不足しているとする計算能力理論、③競合他社が出力データを収集して自前のモデルを訓練する「蒸留」リスクを回避するためとする競争理論――の三つがあった。今回、Anthropicがこの研究上の制限を製品ドキュメントに正式に記載したことで、競争理論の説得力が著しく高まったとみられている。

関連リンク

関連リンク

関連リンク

Command Palette

AnthropicのAI制限隠蔽に研究者憤慨

関連リンク

Command Palette

AnthropicのAI制限隠蔽に研究者憤慨

関連リンク

Command Palette

AnthropicのAI制限隠蔽に研究者憤慨

関連リンク