HyperAIHyperAI

Command Palette

Search for a command to run...

VideoRewardBench 비디오 보상 모델 평가 데이터 세트

날짜

5달 전

조직

中国科学技术大学

Paper URL

2509.00484

라이선스

MIT

중국과학기술대학교와 화웨이 노아의 방주 연구소가 공동 개발한 VideoRewardBench는 영상 이해의 네 가지 핵심 영역(인지, 지식, 추론, 보안)을 완벽하게 포괄하는 2025년 최초의 종합 평가 벤치마크입니다. 관련 연구 논문은 다음과 같습니다... VideoRewardBench: 비디오 이해를 위한 멀티모달 보상 모델의 종합적 평가본 연구의 목표는 복잡한 비디오 이해 시나리오에서 모델의 선호도 판단 능력과 생성된 결과의 품질 평가 능력을 체계적으로 평가하는 것입니다. 이 데이터 세트는 1,563개의 레이블이 지정된 샘플로 구성되어 있으며, 1,482개의 서로 다른 비디오와 1,559개의 서로 다른 질문을 포함합니다. 각 샘플은 비디오-텍스트 프롬프트, 선호하는 응답, 그리고 거부된 응답으로 이루어져 있습니다.

데이터 세트 분포:

과제 차원별로 분류된 데이터 세트는 다섯 가지 핵심 평가 차원을 포괄하며, 전체적인 분포는 비교적 균형 잡혀 있습니다.

  • 장문형 인지: 283개 그룹(18.1%)
  • 단축형 인지: 413개 그룹(26.4%)
  • 지식: 238세트 (15.2%)
  • 추론: 278개 그룹(17.8%)
  • 안전: 351세트(22.5%) 동영상 길이 분포를 기준으로 보면, 짧은 길이의 동영상이 대부분을 차지합니다.
  • 1분 이하: 59.9%
  • 1~5분: 33.21 TP3T
  • 5분: 6.9% 텍스트별 통계

  • 질문 평균 길이: 28.8단어
  • 평균 답변 길이: 103.8단어
  • 선호/거부 답변의 평균 길이: 102.9 / 104.6 단어 선호하는 답변과 거부하는 답변의 길이 분포가 유사하다는 점은 선호도 표시가 텍스트 길이 차이보다는 답변의 질에 의해 주로 결정됨을 시사합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp