Command Palette
Search for a command to run...
Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

초록
업무형 다중모달 모델은 텍스트와 이미지를 이해하는 것을 넘어서, 코드 실행 환경이나 웹 검색과 같은 외부 도구를 능동적으로 호출하고, 이러한 작업을 추론 과정에 통합해야 한다. 본 연구에서는 DeepEyesV2를 소개하며, 데이터 구성, 학습 방법, 모델 평가의 관점에서 업무형 다중모달 모델을 구축하는 방법을 탐구한다. 우리는 단순한 강화학습만으로는 견고한 도구 사용 행동을 유도하지 못함을 관찰하였다. 이 현상은 도구 사용 패턴을 초기 설정하는 ‘콜드스타트 단계’와 도구 호출을 더욱 정교하게 다듬는 강화학습 단계로 구성된 이단계 학습 파이프라인을 제안하게 되었다. 본 연구는 도구 사용이 유용한 사례를 포함하는 다양하고 중간 수준의 난이도를 갖춘 훈련 데이터셋을 체계적으로 구축하였다. 또한, 현실 세계의 다중모달 추론 능력을 평가하기 위해 설계된 종합적 벤치마크인 RealX-Bench를 제안한다. 이 벤치마크는 인지, 검색, 추론과 같은 다수의 능력이 통합되어야 하는 특성을 내재하고 있다. DeepEyesV2는 RealX-Bench를 비롯한 여러 대표적 벤치마크에서 평가되었으며, 현실 세계 이해, 수학적 추론, 검색 집약적 작업 등 다양한 영역에서 뛰어난 성능을 입증하였다. 더불어 DeepEyesV2는 작업에 따라 도구 사용을 적응적으로 조절하는 특성을 보였으며, 인지 작업에는 이미지 처리를, 추론 작업에는 수치 계산을 주로 활용하는 경향을 보였다. 강화학습을 통해 복잡한 도구 조합이 가능해졌고, 맥락에 따라 도구를 선택적으로 호출할 수 있는 능력이 향상되었다. 본 연구가 업무형 다중모달 모델 개발을 위한 커뮤니티에 유의미한 지침을 제공할 수 있기를 기대한다.