HyperAI초신경

ViTT Dense 비디오 설명 데이터 세트

날짜

3년 전

기관

발행 주소

github.com

라이선스

其他

카테고리

다운로드 도움말
特色图像

ViTT는 비디오 타임라인 태그를 의미하며, 수동으로 생성된 세그먼트 수준의 주석이 포함된 8,169개의 비디오로 구성되어 있습니다. 이 중 5,840개의 영상은 한 번 주석이 달렸고, 나머지 영상은 두 번 이상 주석이 달렸습니다. 이 데이터 세트에 대해 총 12,461개의 주석 세트가 공개되었습니다. 이 데이터 세트의 비디오는 Youtube-8M 데이터 세트에서 가져왔습니다.