MSR-VTT 비디오 캡션 데이터 세트

MSR-VTT는 Microsoft Research Video to Text의 전체 이름으로, 오픈 도메인을 위한 대규모 비디오 자막 데이터 세트입니다.
이 데이터 세트는 20개 카테고리의 10,000개 비디오 클립으로 구성되어 있으며, 각 클립에는 Amazon Mechanical Turks로 주석이 달린 영어 문장 20개가 포함되어 있습니다. 모든 자막에는 약 29,000개의 단어가 있습니다. 표준 세분화는 학습을 위해 6,513개 세그먼트, 검증을 위해 497개 세그먼트, 테스트를 위해 2,990개 세그먼트를 사용합니다.
MSR-VTT.torrent
시딩 2다운로드 중 1완료됨 783총 다운로드 횟수 1,816