Command Palette

Search for a command to run...

한 달 전

BaseReward: 다중모달 보상 모델을 위한 강력한 베이스라인

BaseReward: 다중모달 보상 모델을 위한 강력한 베이스라인

초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 급속한 발전에 따라, 인간의 선호도와 일치시키는 것은 핵심적인 도전 과제가 되었다. 보상 모델(Reward Models, RMs)은 이 목표를 달성하기 위한 핵심 기술이지만, 학계 및 산업계 모두에서 최첨단 다중모달 보상 모델(Multimodal Reward Models, MRMs)을 구축하기 위한 체계적인 가이드라인은 여전히 부족한 실정이다. 본 연구는 철저한 실험 분석을 통해 고성능 MRMs를 구축하기 위한 명확한 ‘조리법(Recipe)’을 제시하고자 한다. 우리는 MRM 개발 파이프라인 내 모든 핵심 요소를 체계적으로 탐구하였으며, 보상 모델링 패러다임(예: Naive-RM, Critic 기반 RM, 생성형 RM), 보상 헤드 아키텍처, 훈련 전략, 데이터 정제(다양한 다중모달 및 텍스트 전용 선호도 데이터셋 10종 이상 포함), 백본 모델 및 모델 규모, 앙상블 기법 등을 포괄한다.이러한 실험적 통찰을 바탕으로, 우리는 다중모달 보상 모델링을 위한 강력하고 효율적인 베이스라인 모델인 BaseReward을 제안한다. BaseReward은 Qwen2.5-VL을 백본으로 하되, 간단하면서도 효과적인 아키텍처를 채택하였으며, 최적화된 이중층 보상 헤드를 갖추고, 고품질의 다중모달 및 텍스트 전용 선호도 데이터의 신중한 조합을 기반으로 훈련되었다. 실험 결과, BaseReward은 MM-RLHF-Reward Bench, VL-Reward Bench, Multimodal Reward Bench 등의 주요 벤치마크에서 기존 모델을 능가하며 새로운 SOTA(SOTA: State-of-the-Art) 기록을 수립하였다. 더불어, 정적 벤치마크를 넘어서 실제 응용 환경에서의 실용성을 검증하기 위해, BaseReward을 실제 강화학습 파이프라인에 통합하여 다양한 인지, 추론, 대화 작업에서 MLLM의 성능을 성공적으로 향상시켰다. 본 연구는 단순히 최고 수준의 MRM을 제시하는 것을 넘어서, 차세대 MLLMs를 위한 강력한 보상 모델 개발을 위한 명확하고 경험적 근거에 기반한 가이드를 연구 공동체에 제공한다는 점에서 더 큰 의미를 지닌다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
BaseReward: 다중모달 보상 모델을 위한 강력한 베이스라인 | 연구 논문 | HyperAI초신경