HyperAIHyperAI

Command Palette

Search for a command to run...

Ein feingetuntes Wav2vec 2.0/HuBERT-Benchmark für Speech Emotion Recognition, Speaker Verification und Spoken Language Understanding

Yingzhi Wang Abdelmoumene Boumadane Abdelwahab Heba

Zusammenfassung

Sprach- Selbstüberwachte Modelle wie wav2vec 2.0 und HuBERT erzielen revolutionäre Fortschritte in der automatischen Spracherkennung (ASR). Sie haben jedoch bisher nicht vollständig nachgewiesen, dass sie auch auf Aufgaben jenseits der ASR eine überlegene Leistung erbringen. In dieser Arbeit untersuchten wir sowohl partielle als auch vollständige Feinabstimmung (fine-tuning) der vortrainierten Modelle wav2vec 2.0 und HuBERT für drei nicht-ASR-Sprachaufgaben: Spracherkennung von Emotionen, Sprecheridentifikation und gesprochene Sprachverstehens. Mit einfachen, vorgeschlagenen nachgeschalteten Architekturen erreichten die besten Ergebnisse eine gewichtete Genauigkeit von 79,58 % im sprecherabhängigen und 73,01 % im sprecherunabhängigen Szenario für die Spracherkennung von Emotionen auf dem IEMOCAP-Datensatz, eine Equal Error Rate (EER) von 2,36 % bei der Sprecheridentifikation auf VoxCeleb1 sowie eine Genauigkeit von 89,38 % bei der Absichtsklassifikation und eine F1-Score von 78,92 % bei der Slot-Füllung auf dem SLURP-Datensatz. Diese Ergebnisse belegen die Stärke feinabgestimmter wav2vec 2.0- und HuBERT-Modelle bei der Lernung prosodischer, stimmprägnanter und semantischer Repräsentationen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp