vor 6 Monaten

Zusammenfassung

Die Erkennung menschlicher Nicht-Sprachlautäußerungen ist eine wichtige Aufgabe mit breiten Anwendungsmöglichkeiten, beispielsweise in der automatischen Audiotranskription und der Überwachung von Gesundheitszuständen. Allerdings weisen bestehende Datensätze eine relativ geringe Anzahl an Lautaufnahmen oder fehlerbehaftete Labels auf. Als Folge können state-of-the-art-Modelle zur Audioereignisklassifikation bei der Erkennung menschlicher Lautäußerungen nicht optimal abschneiden. Um die Forschung zu robusten und genauen Modellen zur Lautäußerungserkennung zu unterstützen, haben wir den VocalSound-Datensatz erstellt, der über 21.000 von der Community bereitgestellte Aufnahmen von Lachen, Seufzen, Husten, Räuspern, Niesen und Schnäuzen von insgesamt 3.365 eindeutigen Sprechern enthält. Experimente zeigen, dass die Erkennungsleistung eines Modells durch die Hinzufügung des VocalSound-Datensatzes als Trainingsmaterial um 41,9 % erheblich verbessert werden kann. Zudem enthält der VocalSound-Datensatz im Gegensatz zu früheren Datensätzen Meta-Informationen wie Alter, Geschlecht, Muttersprache, Herkunftsland und Gesundheitszustand der Sprecher.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio-Klassifikation

Spracherkennung

Audio- Und Sprachverarbeitung

Audio

Aufgabe

Yuan Gong Jin Yu James Glass

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio-Klassifikation

Spracherkennung

Audio- Und Sprachverarbeitung

Audio

Aufgabe

Yuan Gong Jin Yu James Glass

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge

Yuan Gong Jin Yu James Glass

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge

Yuan Gong Jin Yu James Glass

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vocalsound: Ein Datensatz zur Verbesserung der Erkennung menschlicher Stimmklänge

Yuan Gong Jin Yu James Glass

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters