11일 전
시각 변환기용 다중모달 토큰 융합
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang

초록
다양한 변형된 트랜스포머 모델들이 단일 모달 비전 작업을 해결하기 위해 등장하였으며, 이들에서는 자기 주의(self-attention) 모듈을 쌓아 이미지와 같은 입력 소스를 처리한다. 직관적으로 볼 때, 비전 트랜스포머에 다중 모달 데이터를 입력하면 성능 향상이 가능할 수 있으나, 내부 모달 간의 주의 가중치가 희석될 수 있어 최종 성능에 악영향을 줄 수 있다. 본 논문에서는 트랜스포머 기반의 비전 작업에 특화된 다중 모달 토큰 융합 방법(TokenFusion)을 제안한다. 효과적인 다중 모달 융합을 위해 TokenFusion은 정보가 부족한 토큰을 동적으로 탐지하고, 이를 투영 및 집계된 다중 모달 특징으로 대체한다. 또한 융합 후의 다중 모달 정렬을 명시적으로 활용할 수 있도록 잔여 위치 정렬(residual positional alignment) 기법을 도입한다. TokenFusion의 설계는 트랜스포머가 다중 모달 특징 간의 상관관계를 학습할 수 있도록 하되, 단일 모달 트랜스포머 아키텍처는 대부분 그대로 유지한다. 다양한 동질적 및 이질적 모달에 대한 광범위한 실험을 수행한 결과, TokenFusion은 다중 모달 이미지-이미지 변환, RGB-깊이 세그멘테이션, 포인트 클라우드와 이미지를 활용한 3D 객체 탐지 등 세 가지 대표적인 비전 작업에서 최신 기법들을 능가함을 입증하였다. 본 연구의 코드는 https://github.com/yikaiw/TokenFusion 에 공개되어 있다.