HyperAIHyperAI

Command Palette

Search for a command to run...

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge

Yuan Gong Jin Yu James Glass

Zusammenfassung

Die Erkennung menschlicher Nicht-Sprachlautäußerungen ist eine wichtige Aufgabe mit breiten Anwendungsmöglichkeiten, beispielsweise in der automatischen Audiotranskription und der Überwachung von Gesundheitszuständen. Allerdings weisen bestehende Datensätze eine relativ geringe Anzahl an Lautaufnahmen oder fehlerbehaftete Labels auf. Als Folge können state-of-the-art-Modelle zur Audioereignisklassifikation bei der Erkennung menschlicher Lautäußerungen nicht optimal abschneiden. Um die Forschung zu robusten und genauen Modellen zur Lautäußerungserkennung zu unterstützen, haben wir den VocalSound-Datensatz erstellt, der über 21.000 von der Community bereitgestellte Aufnahmen von Lachen, Seufzen, Husten, Räuspern, Niesen und Schnäuzen von insgesamt 3.365 eindeutigen Sprechern enthält. Experimente zeigen, dass die Erkennungsleistung eines Modells durch die Hinzufügung des VocalSound-Datensatzes als Trainingsmaterial um 41,9 % erheblich verbessert werden kann. Zudem enthält der VocalSound-Datensatz im Gegensatz zu früheren Datensätzen Meta-Informationen wie Alter, Geschlecht, Muttersprache, Herkunftsland und Gesundheitszustand der Sprecher.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp