HyperAI초신경

심층 정렬 시각 안전 안내(DAVSP)는 2025년 11월 칭화대학교 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문에 발표되었습니다.DAVSP: 심층 정렬 시각적 안전 프롬프트를 통한 대형 시각-언어 모델의 안전 정렬"AAAI 2026에 채택되었습니다."

DAVSP는 대규모 언어 비전 모델(LVLM)을 위한 새로운 보안 정렬 방법으로, 악성 쿼리에 대한 LVLM의 저항력을 효과적으로 향상시키면서도 정상 쿼리에 대한 실용성을 유지합니다. 이 방법은 입력 이미지 주변에 학습 가능한 패딩 영역을 시각적 보안 단서로 구축하여 원래의 시각적 특징을 보존하고 픽셀 교란으로 인한 성능 병목 현상을 제거함으로써 시각적 보안 단서(VSP)를 통한 패러다임 전환을 달성합니다. 또한, 본 연구에서는 딥 얼라인먼트(DA)라는 새로운 학습 전략을 제안합니다. LVLM이 활성화 공간에 악성 정보를 내재적으로 인코딩한다는 점에 착안하여, 연구진은 악성 쿼리와 정상 쿼리를 구분하는 모델의 내부 표현에서 의미 방향을 포착하는 악성 벡터를 구축합니다.

Command Palette

안전성 비교 방법: 심층 정렬 시각적 안전 알림

AI로 AI 구축

HyperAI Newsletters

Command Palette

안전성 비교 방법: 심층 정렬 시각적 안전 알림

관련 위키

덴스 리트리버

자동 음성 인식

유도 사고 강화

공간 이론

배포하면서 배우기

원격 감지

피크 리턴 그리디 슬라이싱

연합 학습

광학 문자 인식(OCR)

AI로 AI 구축

HyperAI Newsletters

Command Palette

안전성 비교 방법: 심층 정렬 시각적 안전 알림

관련 위키

덴스 리트리버

자동 음성 인식

유도 사고 강화

공간 이론

배포하면서 배우기

원격 감지

피크 리턴 그리디 슬라이싱

연합 학습

광학 문자 인식(OCR)

AI로 AI 구축

HyperAI Newsletters

관련 위키

덴스 리트리버

자동 음성 인식

유도 사고 강화

공간 이론

배포하면서 배우기

원격 감지

피크 리턴 그리디 슬라이싱

연합 학습

광학 문자 인식(OCR)

관련 위키

덴스 리트리버

자동 음성 인식

유도 사고 강화

공간 이론

배포하면서 배우기

원격 감지

피크 리턴 그리디 슬라이싱

연합 학습

광학 문자 인식(OCR)