HyperAIHyperAI

Command Palette

Search for a command to run...

Wav2Small: Die Reduktion von Wav2Vec2 auf 72K Parameter für die Emotionserkennung in Sprache mit geringen Ressourcen

Dionysos Kounadis Bastian Oliver Schrüfer Anna Derington Hagen Wierstorf Florian Eyben Felix Burkhardt Björn W. Schuller

Zusammenfassung

Die Erkennung von Emotionen in Sprache (Speech Emotion Recognition, SER) erfordert hohe Rechenressourcen, um die Herausforderung der erheblichen Diskrepanzen zwischen den Annotatoren zu bewältigen. Heutzutage wandelt sich SER hin zu dimensionalen Annotationen von Erregung, Dominanz und Valenz (A/D/V). Allgemeine Metriken wie der L2-Abstand haben sich als ungeeignet erwiesen, um die Genauigkeit von A/D/V zu bewerten, aufgrund des nicht konvergierenden Konsenses der Annotatorenen Meinungen. Der Konkordanzkorrelationskoeffizient (Concordance Correlation Coefficient, CCC) ist jedoch als alternative Metrik für A/D/V hervorgetreten, bei der die Ausgabe eines Modells anhand des CCC des gesamten Datensatzes evaluiert wird, anstatt den L2-Abständen einzelner Audios.Neuere Studien haben gezeigt, dass Architekturen wie wav2vec2 / wavLM, die einen Fließkomma-Wert für jede A/D/V-Dimension ausgeben, den aktuellen Stand der Technik (State-of-the-art, Sota) im CCC für A/D/V erreichen. Die Wav2Vec2.0 / WavLM-Familie hat zwar einen hohen Rechenaufwand, aber das Training kleiner Modelle mit menschlichen Annotationen war bisher erfolglos. In dieser Arbeit verwenden wir ein großes Transformer-Sota-A/D/V-Modell als Lehrer/Annotator zum Trainieren von 5 Schülern: 4 MobileNets und unser vorgeschlagenes Wav2Small-Modell, wobei ausschließlich die A/D/V-Ausgaben des Lehrers und nicht menschliche Annotationen verwendet werden.Das von uns vorgeschlagene Lehrermodell legt zudem einen neuen Sota auf dem MSP-Podcast-Datensatz fest mit einem Valenz-CCC von 0,676. Als Schülermodelle wählen wir MobileNetV4 / MobileNet-V3, da MobileNet für kurze Ausführungszeiten entwickelt wurde. Zudem schlagen wir Wav2Small vor – eine Architektur, die auf minimale Parameterzahl und RAM-Verbrauch ausgelegt ist. Wav2Small mit nur 120 KB (.onnx quantisiert) bietet eine potentielle Lösung für A/D/V auf Hardware mit geringen Ressourcen und verfügt über nur 72K Parameter im Vergleich zu 3,12M Parametern bei MobileNet-V4-Small.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp