HyperAI초신경

How2 다국어 비디오 데이터 세트

날짜

3년 전

기관

발행 주소

srvk.github.io

라이선스

CC BY-SA 4.0

카테고리

다운로드 도움말
特色图像

이는 13,500개의 비디오와 300시간 분량의 연설을 담고 있는 다국어 비디오 데이터 세트이며, 모두 영어 자막과 포르투갈어 번역이 포함되어 있습니다. 그 중 185,187개의 코퍼스가 훈련에 사용되고, 2,022개의 코퍼스가 개발(dev)에 사용되고, 2,361개의 코퍼스가 테스트에 사용됩니다. 이 데이터 세트는 다중 모드 언어 이해를 연구하는 데 사용될 수 있습니다.