초록

대규모 시각-언어 모델(LVLMs)은 다양한 응용 분야에서 놀라운 성과를 거두었지만, 시각 모달리티를 악용하는 악성 쿼리에 취약한 문제가 존재한다. 기존의 정렬(alignment) 기법들은 악성 쿼리에 대한 저항력을 확보하면서도 정상 쿼리의 유용성을 효과적으로 유지하는 데 한계가 있다. 이러한 문제를 해결하기 위해 본 연구에서는 두 가지 핵심 기술을 기반으로 한 ‘딥 알라이언스 시각 안전 프롬프트(Deep Aligned Visual Safety Prompt, DAVSP)’를 제안한다. 첫째, 입력 이미지 주변에 학습 가능한 패딩 영역을 추가하는 ‘시각 안전 프롬프트(Visual Safety Prompt)’를 도입한다. 이는 시각적 특징을 유지하면서 최적화 공간을 확장함으로써 모델의 안정성을 높인다. 둘째, 모델의 활성화 공간에서의 감독 신호를 활용하여 시각 안전 프롬프트를 학습하는 새로운 접근법인 ‘딥 알라이언스(Deep Alignment)’를 제안한다. 이는 LVLM이 악성 쿼리를 더 깊이 인식할 수 있는 내재적 능력을 강화하여 기존 연구보다 더 깊은 수준의 정렬을 달성한다. 두 가지 대표적인 LVLM에 대해 다섯 가지 벤치마크에서 실시한 광범위한 실험 결과는 DAVSP가 악성 쿼리에 효과적으로 대응하면서도 정상 입력의 유용성을 유지함을 입증한다. 또한 DAVSP는 뛰어난 모델 간 생성 능력을 보유하고 있음을 확인하였다. 제거 실험(Ablation studies)을 통해 시각 안전 프롬프트와 딥 알라이언스가 각각 필수적인 구성 요소임을 밝히며, 이 둘의 상호 보완적 기여가 전반적인 성능 향상에 기여함을 확인하였다.

소스 PDF 코드 보기