Command Palette
Search for a command to run...
AVSpeech – Ensemble De Données Vocales Audiovisuelles
Date
Size
Publish URL
AVSpeech est un nouvel ensemble de données audiovisuelles à grande échelle composé de clips vidéo de discours sans bruit de fond interférent. Les clips durent entre 3 et 10 secondes et, dans chaque clip, la voix entendue dans la bande sonore appartient à la seule personne visible parlant dans la vidéo.
L'ensemble de données contient environ 4 700 heures de clips vidéo provenant de 290 000 vidéos YouTube, couvrant une grande variété de personnes, de langues et de poses faciales.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.