HyperAIHyperAI

Command Palette

Search for a command to run...

文生画像モデル向け「Safe-Control」安全補丁、挿入型設計で不正コンテンツを効果抑制

山東大学の博士課程学生・孟祥涛(もう しょうとう)らの研究チームが、文書から画像を生成するモデル(文生図モデル)の安全リスクを抑制する新技術「Safe-Control」を提案した。この技術は、生成モデルに挿入可能な「プラグイン型」の安全補丁として設計され、悪意あるテキストプロンプトによって暴力的・性的・差別的コンテンツが生成されるのをリアルタイムで防ぐ。従来の安全対策はモデル依存性が高く、汎用性に欠けるが、Safe-Controlはモデルの構造を変更せずに、生成プロセスに安全制御信号を注入する仕組みにより、複数の主流モデル(Stable Diffusion、Midjourneyなど)に高い移植性を実現した。 実験では、複数の不適切なプロンプトに対して、Safe-Controlが不安全な画像の生成確率を大幅に低下させることを確認。特に、差別的表現や暴力的描写を含む入力に対しても、生成品質の低下を最小限に抑えながら効果的に抑制した。審査者からは、「生成モデルにおける安全対策という重要な課題に、実用的かつ汎用性の高い解決策を提示した」と評価された。 この技術は、広告制作、教育コンテンツ生成、仮想社交、エンタメ産業など、生成AIが活用される多様な分野で、不適切なコンテンツの流出を防ぐ基盤技術として期待される。研究の発端は、李政教授と郭山清教授の指導のもと、オペレーティングシステムの「パッチ適用」をヒントに、モデルに安全機能を追加するアプローチを構想したことに始まる。数カ月にわたる実験とパラメータ最適化を経て、安定した性能を実現した。 孟祥涛は今後、Safe-Controlのコミュニティを構築し、新たな攻撃手法への対応能力を高める予定。また、産業界への実装支援を通じて、生成AIの安全な活用を推進する。同氏は、山東大学ネットワークセキュリティ学院で大規模モデルの安全性を専門に研究しており、IEEE S&PやCCSといった国際学会で複数の論文を発表するなど、学術的にも高い評価を受けている。Safe-Controlは、生成AIの社会実装を支える重要な安全基盤として、今後の注目が集まる。

関連リンク