2ヶ月前

概要

大規模な視覚言語モデル（LVLM）は、さまざまな応用分野において顕著な進展を遂げているが、視覚モダリティを悪用する悪意あるクエリに対して脆弱であるという問題を抱えている。従来のアライメント手法は、善意の入力に対する有用性を維持しつつ、悪意あるクエリに対して有効に抵抗することができないのが一般的である。この課題に対処するため、本研究では「Deep Aligned Visual Safety Prompt（DAVSP）」を提案する。DAVSPは、以下の2つの鍵となる革新に基づいている。第一に、入力画像の周囲に学習可能なパディング領域を追加する「視覚的安全性プロンプト（Visual Safety Prompt）」を導入する。これにより、視覚特徴の保持が可能となり、最適化空間が拡張される。第二に、モデルの活性化空間における教師信号を用いて視覚的安全性プロンプトを学習する新規アプローチ「Deep Alignment（深層アライメント）」を提案する。この手法により、LVLMが悪意あるクエリをより本質的に認識する能力が向上し、従来の手法よりも深いレベルのアライメントを実現する。2つの代表的なLVLMを対象に、5つのベンチマークで実施した広範な実験により、DAVSPが悪意あるクエリに対して有効に抵抗しつつ、善意の入力に対する有用性を維持できることを確認した。さらに、DAVSPは高いモデル間汎化能力を示した。アブレーション研究により、視覚的安全性プロンプトとDeep Alignmentの両方が不可欠な構成要素であり、その相乗効果が全体的な有効性に寄与していることが明らかになった。

ソースPDF コードを表示