Command Palette
Search for a command to run...
Verse-Bench 오디오-비주얼 조인트 생성 평가 데이터 세트
Verse-Bench는 StepFun이 홍콩과학기술대학교, 홍콩과학기술대학교(광저우) 및 기타 기관과 협력하여 2025년에 발표한 오디오 및 비디오 공동 생성을 평가하기 위한 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.UniVerse-1: 전문가 스티칭을 통한 통합 오디오-비디오 생성"는 생성 모델을 사용하여 비디오를 생성할 뿐만 아니라 오디오 콘텐츠(주변 소리 및 음성 포함)와의 엄격한 시간적 정렬을 유지하는 것을 목표로 합니다.
이 데이터 세트에는 YouTube, Bilibili, TikTok 비디오 프레임, 영화/애니메이션 스크린샷, AI 모델이 생성한 이미지, 공개 웹 이미지에서 얻은 600개의 이미지-텍스트 프롬프트 쌍이 포함되어 있습니다.
데이터 분포
이 데이터 세트는 세 개의 하위 세트(Set1-I, Set2-V, Set3-Ted)로 나뉘며, 각각 사람 목소리, 동물 소리, 악기 소리, 자연음, 사람과 사물의 상호작용 소리, 사물 충격음, 기계 소음 등 다양한 오디오 범주를 포괄하여 다양한 시나리오와 콘텐츠 유형에 적합합니다. 구체적인 분포는 다음과 같습니다.
- 세트 1-I에는 AI 생성 이미지, 웹 스크래핑, 미디어 스크린샷을 포함한 205개의 이미지-텍스트 쌍이 포함되어 있습니다. 각 이미지는 시각적 입력으로 사용되며, 해당 비디오/오디오 캡션과 음성 콘텐츠는 대규모 언어 모델(LLM)과 인간 주석을 통해 생성됩니다.
 - Set2-V에는 YouTube와 BiliBili의 짧은 비디오 클립 샘플 295개가 포함되어 있으며, 여기에는 LLM에서 생성한 자막과 자동 음성 인식(ASR)을 위한 Whisper를 사용하여 수동으로 검증된 텍스트가 함께 제공됩니다.
 - Set3-Ted에는 2025년 9월의 TED 토크 영상이 포함되어 있으며, 총 100개의 샘플이 포함되어 있으며, Set2와 동일한 주석 처리 과정을 거쳤습니다.
 
