Anthropic「Fable」ガードレール懸念
アントロピックは火曜日、サイバーセキュリティ対応モデル「Mythos」の一般公開版である新モデル「Fable」をリリースした。しかし、同モデルに設けられた過度な安全性制限をめぐり、セキュリティ専門家から批判の声が上がっている。 FableはMythosをベースに開発されたが、マルウェア作成やバイオ兵器リスクを防止するため、サイバー関連トピックに対し厳格なフィルタリングを適用している。IBM X-Forceの研究者などによると、ブログ記事の読解やコードレビューの依頼といった正規のタスクでさえ誤ってブロックされ、システムが中断するケースが報告されている。ガードレールが作動すると、会話履歴は維持されたままバックエンドがClaude Opus 4.8に切り替わる仕組みだ。 専門家らは、フィルタリングがキーワードベースであるため、セキュアなコード生成といったソフトウェア開発のベストプラクティスまで誤検知されると指摘する。Tolmoのマット・スイーチ氏は、初期段階での過剰な制限は安全策として理解できるとしつつ、今後は業界連携を通じてガードレールの精度向上と柔軟化が進むと見通している。 アントロピックは、検証済みのセキュリティ専門家が制約なく利用できる「Cyber Verification Program」を運用しており、OpenAIの類似制度と同様に信頼性を付与した利用者にアクセス権限を拡大する方針だ。同社はフィードバックを反映し、セキュリティ専門性と安全性のバランスを取った運用へ移行していく見通しだ。
