날짜

7달 전

조직

Paper URL

2509.00484

라이선스

MIT

태그

비디오 이해

Preference Modeling

중국과학기술대학교와 화웨이 노아의 방주 연구소가 공동 개발한 VideoRewardBench는 영상 이해의 네 가지 핵심 영역(인지, 지식, 추론, 보안)을 완벽하게 포괄하는 2025년 최초의 종합 평가 벤치마크입니다. 관련 연구 논문은 다음과 같습니다... VideoRewardBench: 비디오 이해를 위한 멀티모달 보상 모델의 종합적 평가본 연구의 목표는 복잡한 비디오 이해 시나리오에서 모델의 선호도 판단 능력과 생성된 결과의 품질 평가 능력을 체계적으로 평가하는 것입니다. 이 데이터 세트는 1,563개의 레이블이 지정된 샘플로 구성되어 있으며, 1,482개의 서로 다른 비디오와 1,559개의 서로 다른 질문을 포함합니다. 각 샘플은 비디오-텍스트 프롬프트, 선호하는 응답, 그리고 거부된 응답으로 이루어져 있습니다.

데이터 세트 분포:

과제 차원별로 분류된 데이터 세트는 다섯 가지 핵심 평가 차원을 포괄하며, 전체적인 분포는 비교적 균형 잡혀 있습니다.

장문형 인지: 283개 그룹(18.1%)
단축형 인지: 413개 그룹(26.4%)
지식: 238세트 (15.2%)
추론: 278개 그룹(17.8%)
안전: 351세트(22.5%) 동영상 길이 분포를 기준으로 보면, 짧은 길이의 동영상이 대부분을 차지합니다.
1분 이하: 59.9%
1~5분: 33.21 TP3T
5분: 6.9% 텍스트별 통계
질문 평균 길이: 28.8단어
평균 답변 길이: 103.8단어
선호/거부 답변의 평균 길이: 102.9 / 104.6 단어 선호하는 답변과 거부하는 답변의 길이 분포가 유사하다는 점은 선호도 표시가 텍스트 길이 차이보다는 답변의 질에 의해 주로 결정됨을 시사합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용 Discord에서 논의하기

날짜

7달 전

조직

Paper URL

2509.00484

라이선스

MIT

태그

비디오 이해

Preference Modeling

데이터 세트 분포:

과제 차원별로 분류된 데이터 세트는 다섯 가지 핵심 평가 차원을 포괄하며, 전체적인 분포는 비교적 균형 잡혀 있습니다.

장문형 인지: 283개 그룹(18.1%)
단축형 인지: 413개 그룹(26.4%)
지식: 238세트 (15.2%)
추론: 278개 그룹(17.8%)
안전: 351세트(22.5%) 동영상 길이 분포를 기준으로 보면, 짧은 길이의 동영상이 대부분을 차지합니다.
1분 이하: 59.9%
1~5분: 33.21 TP3T
5분: 6.9% 텍스트별 통계
질문 평균 길이: 28.8단어
평균 답변 길이: 103.8단어
선호/거부 답변의 평균 길이: 102.9 / 104.6 단어 선호하는 답변과 거부하는 답변의 길이 분포가 유사하다는 점은 선호도 표시가 텍스트 길이 차이보다는 답변의 질에 의해 주로 결정됨을 시사합니다.

undefined

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

3달 전

THINGS-EEG EEG 데이터셋

5달 전

THINGS-MEG 자기뇌파 데이터셋

5달 전

THINGS-fMRI 기능적 자기공명영상 데이터셋

5달 전

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

6달 전

RoVid-X 로봇 비디오 생성 데이터 세트

24일 전

TransPhy3D 투명 반사 합성 비디오 데이터 세트

6달 전

GroundingME 복합 장면 이해 평가 데이터 세트

24일 전

MCIF 다중모드 다국어 교육 데이터셋

6달 전

X선 밀수품 탐지 데이터 세트

6달 전

MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

6달 전

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

24일 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

VideoRewardBench 비디오 보상 모델 평가 데이터 세트

데이터 세트 분포:

AI로 AI 구축

HyperAI Newsletters

Command Palette

VideoRewardBench 비디오 보상 모델 평가 데이터 세트

데이터 세트 분포:

undefined

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

THINGS-EEG EEG 데이터셋

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

RoVid-X 로봇 비디오 생성 데이터 세트

TransPhy3D 투명 반사 합성 비디오 데이터 세트

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

VideoRewardBench 비디오 보상 모델 평가 데이터 세트

데이터 세트 분포:

undefined

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

THINGS-EEG EEG 데이터셋

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

RoVid-X 로봇 비디오 생성 데이터 세트

TransPhy3D 투명 반사 합성 비디오 데이터 세트

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

THINGS-EEG EEG 데이터셋

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

RoVid-X 로봇 비디오 생성 데이터 세트

TransPhy3D 투명 반사 합성 비디오 데이터 세트

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

undefined

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

THINGS-EEG EEG 데이터셋

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

RoVid-X 로봇 비디오 생성 데이터 세트

TransPhy3D 투명 반사 합성 비디오 데이터 세트

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트