Command Palette
Search for a command to run...
CapRL은 강화 학습을 설명합니다.
CapRL은 2025년 9월 중국과학기술대학교, 홍콩중문대학교, 상하이 인공지능연구소 등의 연구팀에 의해 제안되었습니다. 관련 연구 결과는 논문 "..."에 게재되었습니다.CapRL: 강화 학습을 통한 고밀도 이미지 캡션 기능 자극".
CapRL은 실용성을 통해 설명 품질을 재정의하는 새로운 학습 프레임워크입니다. 고품질 설명은 비시각적 언어 모델이 해당 이미지에 대한 질문에 정확하게 답할 수 있도록 해야 합니다. 이 프레임워크는 분리된 2단계 프로세스를 채택하는데, 대규모 시각 언어 모델(LVLM)이 설명을 생성하는 반면, 별도의 비시각적 대규모 언어 모델(LLM)이 해당 설명을 기반으로 객관식 질문에 답하는 정확도에서 객관적인 보상을 얻습니다. CapRL-3B 주석이 달린 CapRL-5M 설명 데이터셋으로 사전 학습된 CapRL은 12가지 벤치마크에서 상당한 향상을 달성했습니다. 또한, 설명 품질 평가를 위한 Prism 프레임워크 내에서는 Qwen2.5-VL-72B와 유사한 성능을 보이며, 기준선보다 평균 8.41 TP3T 더 높은 성능을 보였습니다.
