HyperAI초신경
17일 전

VLMs에서 이미지 선호도를 위한 청자 보상형 사고

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
VLMs에서 이미지 선호도를 위한 청자 보상형 사고
초록

인간의 시각적 선호도를 위한 강건하고 일반화된 보상 모델을 훈련하는 것은 텍스트-이미지 및 텍스트-비디오 생성 모델을 인간 의도와 일치시키는 데 필수적입니다. 그러나 현재의 보상 모델은 종종 일반화에 실패하며, 지도 미세 조정은 기억 현상을 초래하여 복잡한 주석 파이프라인을 요구합니다. 강화 학습(RL), 특히 그룹 상대 정책 최적화(GRPO)는 일반화를 개선하지만, 우리는 중요한 실패 모드를 발견했습니다: 모델의 추론 경로가 동일한 출력을 평가하는 독립적인, 고정된 비전-언어 모델("리스너")의 추론 경로와 충돌할 때 추론 정확도가 크게 하락합니다. 이를 해결하기 위해 리스너 증강 GRPO 프레임워크를 제안합니다. 이 프레임워크에서 리스너는 추론자의 사고 과정을 재평가하여 밀도가 높고 교정된 신뢰 점수를 제공하며, 이 점수가 RL 보상 신호를 형성합니다. 이는 추론자가 올바른 답변뿐만 아니라 독립적인 모델에게 설득력 있는 설명을 생성하도록 장려합니다. 우리의 리스너 기반 보상 방식은 ImageReward 벤치마크에서 최고의 정확도(67.4%)를 달성했으며, 대규모 인간 선호 데이터셋(120만 표, 최대 +6% 개선)에서 분포 외(OOD) 성능을 크게 향상시켰습니다. 또한 강력한 GRPO 및 SFT 베이스라인과 비교하여 추론 충돌을 줄였습니다. 이러한 결과들은 리스너 기반 보상이 세부적인 인간 선호도와 비전-언어 모델을 일치시키는 데 있어 확장 가능하고 데이터 효율적인 경로를 제공함을 입증합니다. 우리는 다음과 같은 링크에서 추론 모델을 공개할 예정입니다: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.