Vript 영어 비디오-텍스트 데이터 세트

Vript는 고해상도 비디오를 포함하는 세분화된 비디오-텍스트 데이터 세트로, 총 42만 개가 넘는 클립과 12,000개의 주석이 달린 비디오를 포함합니다. Vript 데이터 세트의 각 클립에는 약 145개 단어의 캡션이 첨부되어 있는데, 이는 대부분 비디오-텍스트 데이터 세트의 주석보다 훨씬 길어서 보다 자세하고 밀도 있는 설명을 제공합니다. 이 데이터 세트의 주석은 비디오 스크립트에서 영감을 얻었는데, 이는 비디오를 만들기 전에 장면을 촬영하는 방법을 구성하기 위해 작성된 스크립트와 비슷합니다.
기존의 비디오-텍스트 데이터 세트와 달리 Vript는 비디오 콘텐츠를 녹화할 뿐만 아니라 샷 유형(중간 샷, 클로즈업 등)과 카메라 움직임(팬, 틸트 등)도 포함하여 비디오 캡션의 풍부함을 높입니다. 또한, Vript는 내레이션을 텍스트로 변환하여 비디오 제목과 함께 제공하여 비디오 주석에 대한 맥락을 더 자세히 제공합니다.
이 데이터 세트는 2024년 상하이 교통대학교, 베이항대학교, 샤오홍수 팀에서 공개했습니다. 관련 논문 결과는 다음과 같습니다.Vript: 영상은 수천 단어의 가치가 있습니다"