11일 전
웹워처: 시각-언어 심층 연구 에이전트의 새로운 전환점 열기
Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

초록
딥 리서치와 같은 웹 에이전트는 인간을 뛰어넘는 인지 능력을 보여주며, 매우 도전적인 정보 탐색 문제를 해결할 수 있는 능력을 입증했다. 그러나 대부분의 연구는 여전히 주로 텍스트 중심에 머물러 있으며, 현실 세계의 시각 정보를 간과하고 있다. 이로 인해 다중모달 딥 리서치는 더욱 높은 수준의 인지, 논리, 지식 활용 능력과 더 복잡한 도구를 사용할 수 있는 강력한 추론 능력이 요구되는 매우 도전적인 과제가 된다. 이러한 한계를 극복하기 위해, 우리는 시각-언어 추론 능력을 강화한 다중모달 딥 리서치 에이전트인 WebWatcher를 제안한다. WebWatcher는 고품질의 합성 다중모달 경로를 활용하여 효율적인 콜드 스타트 학습을 수행하며, 다양한 도구를 활용해 깊이 있는 추론을 수행하고, 강화 학습을 통해 일반화 능력을 더욱 향상시킨다. 다중모달 에이전트의 능력을 보다 정확히 평가하기 위해, 시각적 정보와 텍스트 정보를 모두 포함하는 복잡한 정보 검색을 요구하는 BrowseComp 스타일의 벤치마크인 BrowseComp-VL을 제안한다. 실험 결과, WebWatcher는 네 가지 도전적인 VQA 벤치마크에서 기존의 사적 기준 모델(RAG 워크플로우 및 오픈소스 에이전트)을 크게 능가함을 확인하였으며, 이는 복잡한 다중모달 정보 탐색 과제 해결을 위한 새로운 길을 열어준다.