Command Palette
Search for a command to run...
Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

초록
최근 대화형 다중모달 임베딩 기법 중, 대규모 다중모달 언어모델(Multimodal Large Language Models, MLLM)을 대조학습(Contrastive Learning, CL)으로 미세조정한 접근법이 놀라운 성과를 보이고 있으나, 이러한 기법의 우수성에 기여하는 근본적인 원인은 여전히 탐색되지 않은 상태이다. 본 연구는 MLLM 기반 접근법의 핵심적 장점이 생성형 사전학습 과정에서 암묵적으로 달성되는 다중모달 정렬에 기인한다는 점을 주장한다. 이 과정에서 언어 디코더는 공유된 표현 공간 내에서 다중모달 신호를 활용하여 단일모달 출력을 생성하는 능력을 습득하게 된다. 이론적 분석을 통해 잠재 표현의 비대칭성과 커널 유사도 구조를 검토한 결과, MLLM 표현 내에서 잠재적 정렬이 존재함을 실험적으로 확인하였으며, 이는 CL이 경량적인 정밀 조정 단계로 기능할 수 있음을 시사한다. 이러한 통찰을 바탕으로, 본 연구는 언어 중심의 다모달 임베딩 프레임워크인 LCO-Emb(Language-Centric Omnimodal Embedding)를 제안한다. 다양한 백본 모델과 벤치마크에서 실시한 광범위한 실험을 통해 LCO-Emb의 효과성을 입증하였으며, 다양한 모달에 걸쳐 최신 기준(SOTA, State-of-the-Art) 수준의 성능을 달성하였다. 또한 본 연구는 생성-표현 스케일링 법칙(Generation-Representation Scaling Law, GRSL)을 규명하였으며, 대조학습을 통한 표현력 향상이 MLLM의 생성 능력과 긍정적인 상관관계를 가짐을 보였다. 이는 생성 능력 향상이 표현 품질 향상에 효과적인 전략으로 발전할 수 있음을 시사한다. 본 연구는 GRSL에 대한 이론적 해석을 제시하며, MLLM의 생성 품질과 표현 성능의 상한선 사이의 수학적 관계를 명확히 연결하였다. 이를 낮은 자원 환경에서의 도전적인 시각-문서 검색 작업에서 검증하였으며, CL 이전에 지속적인 생성형 사전학습을 수행할 경우 모델의 임베딩 능력 잠재력이 더욱 향상됨을 확인하였다. 코드, 모델 및 관련 자료는 https://github.com/LCO-Embedding/LCO-Embedding 에서 공개되어 있다.