16일 전

대조적 언어-이미지 사전학습의 설명 가능성에 대한 심층적인 고찰

Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li
대조적 언어-이미지 사전학습의 설명 가능성에 대한 심층적인 고찰
초록

대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 다양한 작업에서 큰 성과를 보여주는 강력한 시각-언어 모델이다. 그러나 우리는 CLIP의 해석 가능성(explainability)에 일부 문제점을 발견하였으며, 이는 모델의 신뢰성 저하와 관련 작업의 수행 능력 제한을 초래한다. 구체적으로, CLIP는 전경보다 배경 영역에 더 집중하는 경향이 있으며, 시각화 결과에서 관련 없는 위치에서 노이즈가 포함된 활성화 현상이 나타난다. 이러한 현상은 클래스 주의 맵(Class Attention Map, CAM) 기반의 전통적인 해석 가능성 방법과 모순된다. 기존의 CAM 방법은 전역 감독(global supervision)을 통해 정렬 없이도 지역적인 전경 영역을 강조할 수 있지만, CLIP는 이를 반대로 나타낸다. 이러한 문제를 해결하기 위해 우리는 모델의 아키텍처와 특징을 깊이 있게 분석하였다. 분석 결과, 원본(self-attention)의 주의 맵이 일관되지 않은 의미 영역과 연결되어 있음을 확인하였으며, 이로 인해 시각화 결과가 반대 방향으로 나타나는 원인이 된다. 또한, 노이즈 활성화는 카테고리 간 중복된 특징에 기인한다. 이러한 통찰을 바탕으로, 우리는 추가적인 미세조정(fine-tuning) 없이 추론 아키텍처와 특징에 수술과 같은 수정을 가능하게 하는 ‘CLIP Surgery’를 제안한다. 이 방법은 기존의 CAM 기반 접근법과는 달리, 모델의 구조적 특성에 직접적인 조작을 통해 CLIP의 해석 가능성을 크게 향상시킨다. 또한, 다중 모달 시각화를 가능하게 하며, 추가적인 정렬 없이도 오픈-보이지(Open-vocabulary) 작업에 대한 원본 CLIP의 능력을 확장할 수 있다. 코드는 다음 주소에서 공개되어 있다: https://github.com/xmed-lab/CLIP_Surgery.

대조적 언어-이미지 사전학습의 설명 가능성에 대한 심층적인 고찰 | 최신 연구 논문 | HyperAI초신경