Command Palette
Search for a command to run...
DREAM-1K는 ByteDance에서 발표한 비디오 설명 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.Tarsier: 대규모 비디오 설명 모델 훈련 및 평가를 위한 레시피".
이 데이터세트는 5가지 범주에 속하는 다양한 복잡성을 가진 주석이 달린 1,000개의 비디오 클립(길이 약 10초)으로 구성되어 있으며, 각 클립에는 단일 프레임으로는 정확하게 식별할 수 없는 동적 이벤트가 하나 이상 포함되어 있습니다. 각 비디오에는 모든 이벤트, 동작 및 동작을 포괄하는 세부적인 수동 주석이 제공됩니다.
데이터 소스 범주:
- 실사 영화
- 애니메이션 영화
- 스톡 비디오
- 유튜브 긴 영상
- TikTok 스타일의 짧은 영상