Command Palette
Search for a command to run...
VideoRewardBench 비디오 보상 모델 평가 데이터 세트
중국과학기술대학교와 화웨이 노아의 방주 연구소가 공동 개발한 VideoRewardBench는 영상 이해의 네 가지 핵심 영역(인지, 지식, 추론, 보안)을 완벽하게 포괄하는 2025년 최초의 종합 평가 벤치마크입니다. 관련 연구 논문은 다음과 같습니다... VideoRewardBench: 비디오 이해를 위한 멀티모달 보상 모델의 종합적 평가본 연구의 목표는 복잡한 비디오 이해 시나리오에서 모델의 선호도 판단 능력과 생성된 결과의 품질 평가 능력을 체계적으로 평가하는 것입니다. 이 데이터 세트는 1,563개의 레이블이 지정된 샘플로 구성되어 있으며, 1,482개의 서로 다른 비디오와 1,559개의 서로 다른 질문을 포함합니다. 각 샘플은 비디오-텍스트 프롬프트, 선호하는 응답, 그리고 거부된 응답으로 이루어져 있습니다.
데이터 세트 분포:
과제 차원별로 분류된 데이터 세트는 다섯 가지 핵심 평가 차원을 포괄하며, 전체적인 분포는 비교적 균형 잡혀 있습니다.
- 장문형 인지: 283개 그룹(18.1%)
- 단축형 인지: 413개 그룹(26.4%)
- 지식: 238세트 (15.2%)
- 추론: 278개 그룹(17.8%)
- 안전: 351세트(22.5%) 동영상 길이 분포를 기준으로 보면, 짧은 길이의 동영상이 대부분을 차지합니다.
- 1분 이하: 59.9%
- 1~5분: 33.21 TP3T
-
5분: 6.9% 텍스트별 통계
- 질문 평균 길이: 28.8단어
- 평균 답변 길이: 103.8단어
- 선호/거부 답변의 평균 길이: 102.9 / 104.6 단어 선호하는 답변과 거부하는 답변의 길이 분포가 유사하다는 점은 선호도 표시가 텍스트 길이 차이보다는 답변의 질에 의해 주로 결정됨을 시사합니다.