HyperAI
Command Palette
Search for a command to run...
AVSpeech – 시청각 음성 데이터 세트
AVSpeech는 배경 소음을 방해하지 않는 음성 비디오 클립으로 구성된 새로운 대규모 오디오-비주얼 데이터 세트입니다. 클립의 길이는 3~10초이며, 각 클립에서 사운드트랙에 들리는 목소리는 영상 속에서 말하는 유일한 사람의 목소리입니다. 이 데이터 세트에는 다양한 사람, 언어, 얼굴 포즈를 다루는 29만 개의 YouTube 동영상에서 약 4,700시간 분량의 비디오 클립이 포함되어 있습니다.
AVSpeech.torrent
시딩 3다운로드 중 1완료됨 2,861총 다운로드 수 4,571
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.