한국어

ViTT Dense 비디오 설명 데이터 세트

날짜

3년 전

기관

발행 주소

github.com

논문 URL

arxiv.org

라이선스

其他

태그

ViTT는 비디오 타임라인 태그를 의미하며, 수동으로 생성된 세그먼트 수준의 주석이 포함된 8,169개의 비디오로 구성되어 있습니다. 이 중 5,840개의 영상은 한 번 주석이 달렸고, 나머지 영상은 두 번 이상 주석이 달렸습니다. 이 데이터 세트에 대해 총 12,461개의 주석 세트가 공개되었습니다. 이 데이터 세트의 비디오는 Youtube-8M 데이터 세트에서 가져왔습니다.

ViTT Dense 비디오 설명 데이터 세트 | 데이터셋 | HyperAI초신경