HyperAI

最近、ユーザーがAnthropicの最新の「Claude Fable 5」モデルをテストした際、同モデルが生体工学とサイバーセキュリティに関連する基礎的な質問に対して極めて強い「防衛姿勢」を示すことが判明した。「Business Insider」の実験によると、「がんの情報伝播」や「基本的な生物分類法」といった通常の質問を入力すると、Fable 5は即座に「Opus 4.8」に移行し、「セキュリティメカニズムにより多くの生体・サイバーセキュリティ関連トピックがブロックされました。正常なコンテンツも誤って検出される可能性があります。」というポップアップメッセージを表示した。 Fable 5は、一般向けに提供されたAnthropic初の「Mythos（神話）級」モデルである。会社側は認めている通り、その基盤となる能力が強力すぎるため、そのまま公開すれば悪用リスクを負う可能性があるとしている。そのため、Anthropicは内部に、サイバーセキュリティ、生体／化学、そして「モデル蒸留」の三つのカテゴリのリクエストに対するセキュリティ分類機を組み込んでいる。これらの条件でブロックが発生した場合、モデルは回答を拒否するか、または「Opus 4.8」への格下げを行う。 Anthropicによれば、当初のセキュリティメカニズムでは「慎重なアプローチ」が取られているとのことだ。最先端のモデルには現実世界の科学的タスクを実行できる能力がある一方で、それは高リスクを生む可能性のあるバイオ研究にも利用され得るため、ブロック閾値を引き上げる必要があると判断している。現在、Fable 5のセッションのうち約95％において格下げトリガーが発動していない。会社側は、誤検知を減らすために分類機の最適化を進めており、将来的には生命科学研究分野に対し制限を解除した同等の能力を提供することを計画しており、これによって科学研究および創薬プロセスの加速を図りたい考えだ。 Palisade Researchのポリシー責任者であるDavid Kasten氏は、この取り組みは責任あるセキュリティ試みであると指摘しつつも、最終的にはセキュリティ制限は回避されると警告した。さらに彼は、センシティブな話題における頻繁なモデルの格下が、一般人によるAIの実際の性能上限の見落としにつながりかねないと警鐘を鳴らした。こうした「認知ギャップ」こそがかえって規制面でのリスクを増大させると述べている。

関連リンク

関連リンク

関連リンク

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

Command Palette

AnthropicのFable 5が日常的な質問を「誤って」ブロック

関連リンク

Command Palette

AnthropicのFable 5が日常的な質問を「誤って」ブロック

関連リンク

Command Palette

AnthropicのFable 5が日常的な質問を「誤って」ブロック

関連リンク

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。