HyperAIHyperAI

Command Palette

Search for a command to run...

Sprechernormalisierung für selbstüberwachtes Sprachemotionserkennung

Itai Gat Hagai Aronowitz Weizhong Zhu Edmilson Morais Ron Hoory

Zusammenfassung

Große Datensätze für die Sprachemotionserkennung sind schwer zu beschaffen, und kleine Datensätze können Verzerrungen enthalten. Deep-Net-basierte Klassifikatoren neigen hingegen dazu, solche Verzerrungen auszunutzen und Abkürzungen wie sprecherbezogene Merkmale zu finden, was die Fähigkeit eines Modells zur Generalisierung typischerweise beeinträchtigt. Um dieser Herausforderung zu begegnen, schlagen wir einen gradientenbasierten adversarialen Lernansatz vor, der die Aufgabe der Sprachemotionserkennung erlernt, während gleichzeitig sprecherbezogene Merkmale aus der Merkmalsrepräsentation normalisiert werden. Wir belegen die Wirksamkeit unseres Ansatzes sowohl in sprecherunabhängigen als auch in sprecherabhängigen Szenarien und erzielen neue SOTA-Ergebnisse auf dem anspruchsvollen IEMOCAP-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp