17일 전

GeminiFusion: Vision Transformer을 위한 효율적인 픽셀 단위 다중모달 융합

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen
GeminiFusion: Vision Transformer을 위한 효율적인 픽셀 단위 다중모달 융합
초록

크로스모달 트랜스포머는 다양한 비전 작업에서 서로 다른 모달 간의 효과적인 통합을 통해 우수한 성능을 보여왔다. 본 논문은 기존의 토큰 교환 방법에 대해 비판적으로 분석하며, 정보량이 낮은 토큰을 모달 간 특징으로 대체하는 기존 접근 방식이 크로스 어텐션 메커니즘에 비해 성능이 열등함을 입증한다. 또한 후자의 경우 계산량이 필연적으로 증가하여 긴 시퀀스 처리에 있어 제약이 있음을 지적한다. 이러한 계산적 도전을 극복하기 위해, 우리는 정렬된 크로스모달 표현을 활용하는 픽셀 단위의 융합 방법인 GeminiFusion을 제안한다. GeminiFusion은 내모달 및 간모달 어텐션을 유연하게 통합하여 각 모달 간의 보완적인 정보를 동적으로 조합한다. 특히, 레이어별 적응형 노이즈를 도입하여 각 레이어에서 두 어텐션 간의 상호작용을 적절히 조절함으로써 균형 잡힌 융합 과정을 달성한다. 특히 GeminiFusion은 입력 토큰 수에 대해 선형 복잡도를 유지함으로써, 단일모달 네트워크와 비슷한 효율성을 갖춘 멀티모달 프레임워크를 구현한다. RGB, 깊이, LiDAR, 이벤트 데이터 등 다양한 모달을 포함한 다중모달 이미지-이미지 번역, 3D 객체 탐지, 임의의 모달 세그멘테이션 등의 종합적인 평가 결과에서, 본 연구의 GeminiFusion이 최첨단 기법들에 비해 뛰어난 성능을 보임을 입증하였다. PyTorch 기반 코드는 https://github.com/JiaDingCN/GeminiFusion 에서 공개되어 있다.

GeminiFusion: Vision Transformer을 위한 효율적인 픽셀 단위 다중모달 융합 | 최신 연구 논문 | HyperAI초신경