17일 전

언어 모델에서 동결된 Transformers는 효과적인 시각 인코더 레이어이다

Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang
언어 모델에서 동결된 Transformers는 효과적인 시각 인코더 레이어이다
초록

본 논문은 대규모 언어 모델(LLM)이 텍스트 데이터만으로 훈련되었음에도 불구하고, 언어 없이 순수한 시각 작업에 대해 놀랍도록 강력한 인코더 역할을 할 수 있음을 밝혀냈다. 더욱 흥미로운 점은, 이 성과를 달성할 수 있는 간단하지만 이전에 간과되었던 전략이 존재한다는 점이다. 즉, 사전 훈련된 LLM에서 동결된 트랜스포머 블록을 사용하여 직접 시각 토큰을 처리하는 구성 인코더 계층으로 활용하는 것이다. 본 연구는 LLM을 컴퓨터 비전 작업에 활용하는 경계를 크게 확장하며, 일반적으로 언어 프롬프트, 입력 또는 출력을 포함하는 다중 모달 시각-언어 설정이 필요했던 기존의 관행과 크게 벗어나고 있다. 우리는 제안한 접근 방식이 다양한 작업에서 일관되게 성능 향상을 가져옴을 실험적으로 입증하였다. 이는 순수한 2D 및 3D 시각 인식 작업(예: 이미지 및 포인트 클라우드 분류), 시간적 모델링 작업(예: 행동 인식), 비의미적 작업(예: 움직임 예측), 다중 모달 작업(예: 2D/3D 시각 질문 응답 및 이미지-텍스트 검색) 등 다양한 영역에 걸쳐 적용 가능하다. 이러한 성능 향상은 다양한 유형의 LLM(예: LLaMA, OPT)과 다양한 LLM 트랜스포머 블록에 일반적으로 적용되는 현상이다. 또한, 사전 훈련된 LLM이 시각 인코딩에서 효과적인 이유를 설명하기 위해 정보 필터링 가설(information filtering hypothesis)을 제안한다. 이 가설에 따르면, 사전 훈련된 LLM의 트랜스포머 블록은 시각 토큰 중 정보가 풍부한 부분을 식별하고, 그 영향력을 더욱 강화한다. 이 가설은 LLM 트랜스포머 블록을 사용하여 훈련한 후 특징 활성화가 관련 영역에 더 집중됨을 관찰함으로써 실험적으로 뒷받침된다. 본 연구가 LLM의 활용에 대한 새로운 시각을 제시하고, 그 내부 메커니즘에 대한 깊이 있는 이해를 촉진하기를 기대한다. 코드는 https://github.com/ziqipang/LM4VisualEncoding 에서 공개되어 있다.