HyperAIHyperAI

Command Palette

Search for a command to run...

안전성 비교 방법: 심층 정렬 시각적 안전 알림

날짜

2달 전

Paper URL

2506.09353

심층 정렬 시각 안전 안내(DAVSP)는 2025년 11월 칭화대학교 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문에 발표되었습니다.DAVSP: 심층 정렬 시각적 안전 프롬프트를 통한 대형 시각-언어 모델의 안전 정렬"AAAI 2026에 채택되었습니다."

DAVSP는 대규모 언어 비전 모델(LVLM)을 위한 새로운 보안 정렬 방법으로, 악성 쿼리에 대한 LVLM의 저항력을 효과적으로 향상시키면서도 정상 쿼리에 대한 실용성을 유지합니다. 이 방법은 입력 이미지 주변에 학습 가능한 패딩 영역을 시각적 보안 단서로 구축하여 원래의 시각적 특징을 보존하고 픽셀 교란으로 인한 성능 병목 현상을 제거함으로써 시각적 보안 단서(VSP)를 통한 패러다임 전환을 달성합니다. 또한, 본 연구에서는 딥 얼라인먼트(DA)라는 새로운 학습 전략을 제안합니다. LVLM이 활성화 공간에 악성 정보를 내재적으로 인코딩한다는 점에 착안하여, 연구진은 악성 쿼리와 정상 쿼리를 구분하는 모델의 내부 표현에서 의미 방향을 포착하는 악성 벡터를 구축합니다.

DAVSP 개요

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
안전성 비교 방법: 심층 정렬 시각적 안전 알림 | Wiki | HyperAI초신경