Command Palette
Search for a command to run...
Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

초록
실제 응용 분야에서의 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 외부 지식 소스에 접근할 수 있어야 하며, 지속적으로 변화하는 현실 세계의 정보에 즉각적으로 대응할 수 있어야 한다. 이는 정보 탐색 및 지식 집약적인 사용자 질의에 효과적으로 대응하기 위함이다. 기존의 접근 방식, 예를 들어 검색 증강 생성(Retrieval Augmented Generation, RAG) 기법, 검색 에이전트, 검색 기능을 탑재한 MLLM 등은 고정된 처리 파이프라인, 과도한 검색 호출, 그리고 부적절하게 구성된 검색 쿼리 등의 문제로 인해 효율성이 떨어지고 최적의 결과를 도출하지 못하는 경우가 많다. 이러한 한계를 극복하기 위해, 우리는 이미지 및 텍스트 검색 도구에 대해 동적으로 쿼리를 생성하고, 필요에 따라 다단계 웹 검색을 수행할 수 있는 최초의 다모달 LLM인 DeepMMSearch-R1을 제안한다. 특히 DeepMMSearch-R1은 입력 이미지의 관련 영역을 기반으로 웹 검색을 시작하여 이미지 검색의 효과성을 높이며, 검색된 정보를 바탕으로 텍스트 검색 쿼리를 반복적으로 조정함으로써 자기 반성과 자기 수정 능력을 갖춘다. 본 연구의 접근 방식은 두 단계의 학습 파이프라인에 기반한다: 초기 단계에서의 감독 학습을 통한 콜드 스타트(finetuning) 이후, 온라인 강화 학습을 통한 최적화 과정이다. 학습을 위해, 웹 검색 도구로부터 얻은 실제 세계 정보를 자동화된 파이프라인을 통해 통합한 새로운 다모달 VQA 데이터셋인 DeepMMSearchVQA를 제안한다. 이 데이터셋은 텍스트와 시각 정보를 통합한 다양한 다단계(multi-hop) 질문을 포함하며, 모델이 언제 검색을 수행해야 하는지, 무엇을 검색해야 하는지, 어떤 검색 도구를 사용해야 하는지, 그리고 검색된 정보를 어떻게 추론해야 하는지를 학습할 수 있도록 한다. 다양한 지식 집약형 벤치마크를 대상으로 광범위한 실험을 수행한 결과, 본 연구의 접근 방식이 우수함을 입증하였다. 마지막으로, 실험 결과를 분석하고 다모달 웹 검색 기술의 향후 발전에 기여할 수 있는 통찰을 제시한다.