HyperAIHyperAI

Command Palette

Search for a command to run...

AIの安全対策を内部から破る新手法「Nullspace Steer」が開発——UF研究チームが大規模言語モデルの脆弱性を解明

フロリダ大学のコンピュータ・情報科学・工学部(CISE)のSumit Kumar Jha教授らの研究が、AIの安全対策を強化するための革新的な手法を明らかにした。論文「Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion」は、AIの「安全ガードレール」を破る技術を分析し、その弱点を明らかにすることで、より強固な防御策の構築を促すことを目的としている。この研究は、AIが医療、金融、カスタマーサポートなど日常に深く関わるインフラとして広がる中で、その信頼性を確保する上で極めて重要だ。 Jha教授は、「AIの安全性は外部からのプロンプトテストだけでは不十分。内部の決定プロセスを直接観察し、どこが壊れやすいかを明らかにしなければならない」と強調。従来の「プロンプト改ざん」に頼る攻撃手法ではなく、AIモデルの内部構造を直接操作する「Head-Masked Nullspace Steering(HMNS)」という新手法を開発。この方法では、モデルの内部で最も影響力を持つ「ヘッド(処理単位)」を特定し、その働きを無効化しつつ、他の部分を「誘導」することで、安全対策がどのように破られるかを精密に検証する。 この研究は、メタやマイクロソフトの大規模言語モデル(LLM)を対象に実施され、UFのHiPerGator超計算機を活用して大規模な計算を実行。結果として、HMNSは4つの業界標準ベンチマークで、従来の最先端手法よりも高い成功率を示し、必要な計算リソースも少なく、効率的だった。また、研究チームは「計算量を考慮した評価」を導入し、公平な比較を可能にした。 Jha教授らは、この研究の目的は「AIの誤用を助長することではなく、安全性を高めること」だと明言。AIの普及が進む中で、安全対策の「実効性」を検証し、開発者に実際の弱点を提供することで、より信頼できるAIの実現を目指している。この研究は2026年4月にリオデジャネイロで開かれる国際学術会議ICLR 2026に採択され、AIの安全な進化に向けた重要な一歩とされている。

関連リンク

AIの安全対策を内部から破る新手法「Nullspace Steer」が開発——UF研究チームが大規模言語モデルの脆弱性を解明 | 人気の記事 | HyperAI超神経