Ein feingetuntes Wav2vec 2.0/HuBERT-Benchmark für Speech Emotion Recognition, Speaker Verification und Spoken Language Understanding

Sprach- Selbstüberwachte Modelle wie wav2vec 2.0 und HuBERT erzielen revolutionäre Fortschritte in der automatischen Spracherkennung (ASR). Sie haben jedoch bisher nicht vollständig nachgewiesen, dass sie auch auf Aufgaben jenseits der ASR eine überlegene Leistung erbringen. In dieser Arbeit untersuchten wir sowohl partielle als auch vollständige Feinabstimmung (fine-tuning) der vortrainierten Modelle wav2vec 2.0 und HuBERT für drei nicht-ASR-Sprachaufgaben: Spracherkennung von Emotionen, Sprecheridentifikation und gesprochene Sprachverstehens. Mit einfachen, vorgeschlagenen nachgeschalteten Architekturen erreichten die besten Ergebnisse eine gewichtete Genauigkeit von 79,58 % im sprecherabhängigen und 73,01 % im sprecherunabhängigen Szenario für die Spracherkennung von Emotionen auf dem IEMOCAP-Datensatz, eine Equal Error Rate (EER) von 2,36 % bei der Sprecheridentifikation auf VoxCeleb1 sowie eine Genauigkeit von 89,38 % bei der Absichtsklassifikation und eine F1-Score von 78,92 % bei der Slot-Füllung auf dem SLURP-Datensatz. Diese Ergebnisse belegen die Stärke feinabgestimmter wav2vec 2.0- und HuBERT-Modelle bei der Lernung prosodischer, stimmprägnanter und semantischer Repräsentationen.