Command Palette
Search for a command to run...
AVSpeech – Ensemble De Données Vocales Audiovisuelles
Date
Taille
URL de publication
AVSpeech est un nouvel ensemble de données audiovisuelles à grande échelle composé de clips vidéo de discours sans bruit de fond interférent. Les clips durent entre 3 et 10 secondes et, dans chaque clip, la voix entendue dans la bande sonore appartient à la seule personne visible parlant dans la vidéo.
L'ensemble de données contient environ 4 700 heures de clips vidéo provenant de 290 000 vidéos YouTube, couvrant une grande variété de personnes, de langues et de poses faciales.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.