HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5日前

DAVSP:深層整合視覚安全プロンプトを用いた大規模な視覚言語モデルの安全整合

Yitong Zhang Jia Li Liyi Cai Ge Li

DAVSP:深層整合視覚安全プロンプトを用いた大規模な視覚言語モデルの安全整合

要約

大規模な視覚言語モデル(LVLM)は、さまざまな応用分野において顕著な進展を遂げているが、視覚モダリティを悪用する悪意あるクエリに対して脆弱であるという問題を抱えている。従来のアライメント手法は、善意の入力に対する有用性を維持しつつ、悪意あるクエリに対して有効に抵抗することができないのが一般的である。この課題に対処するため、本研究では「Deep Aligned Visual Safety Prompt(DAVSP)」を提案する。DAVSPは、以下の2つの鍵となる革新に基づいている。第一に、入力画像の周囲に学習可能なパディング領域を追加する「視覚的安全性プロンプト(Visual Safety Prompt)」を導入する。これにより、視覚特徴の保持が可能となり、最適化空間が拡張される。第二に、モデルの活性化空間における教師信号を用いて視覚的安全性プロンプトを学習する新規アプローチ「Deep Alignment(深層アライメント)」を提案する。この手法により、LVLMが悪意あるクエリをより本質的に認識する能力が向上し、従来の手法よりも深いレベルのアライメントを実現する。2つの代表的なLVLMを対象に、5つのベンチマークで実施した広範な実験により、DAVSPが悪意あるクエリに対して有効に抵抗しつつ、善意の入力に対する有用性を維持できることを確認した。さらに、DAVSPは高いモデル間汎化能力を示した。アブレーション研究により、視覚的安全性プロンプトとDeep Alignmentの両方が不可欠な構成要素であり、その相乗効果が全体的な有効性に寄与していることが明らかになった。

コードリポジトリ

zhangyitonggg/davsp
公式
pytorch

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DAVSP:深層整合視覚安全プロンプトを用いた大規模な視覚言語モデルの安全整合 | 論文 | HyperAI超神経