HyperAIHyperAI
vor 15 Tagen

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge

Yuan Gong, Jin Yu, James Glass
Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge
Abstract

Die Erkennung menschlicher Nicht-Sprachlautäußerungen ist eine wichtige Aufgabe mit breiten Anwendungsmöglichkeiten, beispielsweise in der automatischen Audiotranskription und der Überwachung von Gesundheitszuständen. Allerdings weisen bestehende Datensätze eine relativ geringe Anzahl an Lautaufnahmen oder fehlerbehaftete Labels auf. Als Folge können state-of-the-art-Modelle zur Audioereignisklassifikation bei der Erkennung menschlicher Lautäußerungen nicht optimal abschneiden. Um die Forschung zu robusten und genauen Modellen zur Lautäußerungserkennung zu unterstützen, haben wir den VocalSound-Datensatz erstellt, der über 21.000 von der Community bereitgestellte Aufnahmen von Lachen, Seufzen, Husten, Räuspern, Niesen und Schnäuzen von insgesamt 3.365 eindeutigen Sprechern enthält. Experimente zeigen, dass die Erkennungsleistung eines Modells durch die Hinzufügung des VocalSound-Datensatzes als Trainingsmaterial um 41,9 % erheblich verbessert werden kann. Zudem enthält der VocalSound-Datensatz im Gegensatz zu früheren Datensätzen Meta-Informationen wie Alter, Geschlecht, Muttersprache, Herkunftsland und Gesundheitszustand der Sprecher.

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge | Neueste Forschungsarbeiten | HyperAI