Command Palette

Search for a command to run...

4달 전

MMSearch-R1: LMMs의 검색을 유도하는 인센티브

Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

MMSearch-R1: LMMs의 검색을 유도하는 인센티브

초록

실제 환경에서 대형 다중 모드 모델(LMMs)의 강건한 배포는 실제 정보의 복잡성과 동적 특성을 고려할 때 외부 지식 출처에 대한 접근이 필요합니다. 기존 접근 방식인 검색 강화 생성(RAG) 및 프롬프트 엔지니어링 검색 에이전트는 경직된 파이프라인을 사용하여 종종 비효율적이거나 과도한 검색 행동을 초래합니다. 우리는 MMSearch-R1을 제시합니다. 이는 실제 인터넷 환경에서 LMMs가 필요한 시점에 다단계 검색을 수행할 수 있도록 하는 첫 번째 end-to-end 강화 학습 프레임워크입니다. 우리의 프레임워크는 이미지와 텍스트 검색 도구를 통합하여, 모델이 결과 기반 보상과 검색 패널티를 통해 언제 어떻게 이러한 도구를 호출할지를 추론할 수 있게 합니다.훈련을 지원하기 위해, 우리는 다양한 시각적 및 텍스트 지식 요구 사항을 포함하는 반자동 파이프라인을 통해 다중 모드 검색 VQA 데이터셋을 수집하였습니다. 또한, 검색이 필요한 샘플과 검색이 필요하지 않은 샘플로 구성된 검색 균형 잡힌 하위 집합을 큐레이션하여, 효율적이고 필요한 시점에만 검색 행동을 유도하는 데 필수적인 역할을 합니다. 지식 중심 및 정보 탐색 VQA 작업에 대한 광범위한 실험은 우리의 모델이 같은 크기의 RAG 기반 베이스라인보다 우수한 성능을 보이는 것뿐만 아니라, 더 큰 RAG 기반 모델의 성능과 맞먹으면서 30% 이상의 검색 요청 횟수를 줄일 수 있음을 보여줍니다. 우리는 주요 경험적 연구 결과를 추가 분석하여 다중 모드 검색 연구를 발전시키기 위한 실질적인 통찰력을 제공합니다.

코드 저장소

evolvinglmms-lab/multimodal-search-r1
공식
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MMSearch-R1: LMMs의 검색을 유도하는 인센티브 | 연구 논문 | HyperAI초신경