Command Palette
Search for a command to run...
AVSpeech – Audiovisueller Sprachdatensatz
Datum
Größe
Veröffentlichungs-URL
AVSpeech ist ein neuer, groß angelegter audiovisueller Datensatz, der aus Videoclips von Sprache ohne störende Hintergrundgeräusche besteht. Die Clips sind zwischen 3 und 10 Sekunden lang und in jedem Clip gehört die im Soundtrack zu hörende Stimme der einzigen Person, die im Video sichtbar spricht.
Der Datensatz enthält etwa 4.700 Stunden Videoclips aus 290.000 YouTube-Videos und deckt eine große Vielfalt an Personen, Sprachen und Gesichtshaltungen ab.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.