Methode zur Genauigkeitssteigerung der Sprachemotionserkennung aus Spektrogrammen mittels Ausnutzung der zeitlichen Frequenzkorrelation und Lernen räumlicher Information durch Wissensübertragung

In diesem Paper stellen wir eine Methode zur Verbesserung der Genauigkeit der Sprachemotionserkennung (Speech Emotion Recognition, SER) vor, indem wir einen Vision Transformer (ViT) nutzen, um die Korrelation zwischen Frequenz (y-Achse) und Zeit (x-Achse) in einem Spektrogramm zu erfassen, und Positionsinformationen zwischen ViT-Modellen mittels Wissensübertragung transferieren. Die vorgeschlagene Methode zeichnet sich durch folgende Originalität aus:i) Wir verwenden vertikal segmentierte Patche eines log-Mel-Spektrogramms, um die zeitliche Korrelation der Frequenzen zu analysieren. Diese Patch-Struktur ermöglicht es, die für eine bestimmte Emotion besonders relevante Frequenzbandbreite mit dem Zeitpunkt ihrer Aussprache zu verknüpfen.ii) Wir schlagen die Verwendung einer Bild-Koordinaten-Encoderung vor, einer absoluten Positions-Encoderung, die gut für ViT geeignet ist. Durch Normalisierung der x- und y-Koordinaten des Bildes auf den Bereich von –1 bis 1 und deren Konkatenation mit dem Bild können wir dem ViT effektiv valide absolute Positionsinformationen bereitstellen.iii) Durch Feature-Map-Übereinstimmung wird die Lokalität und räumliche Information des Lehrmodells effektiv an das Schülermodell übertragen. Das Lehrmodell ist ein ViT, das sowohl die Lokalität durch einen konvolutionalen Stamm als auch absolute Positionsinformationen mittels Bild-Koordinaten-Encoderung enthält, während das Schülermodell eine Struktur darstellt, die im grundlegenden ViT-Modell keine Positions-Encoderung aufweist. Im Stadium der Feature-Map-Übereinstimmung wird durch Minimierung des mittleren absoluten Fehlers (L1-Verlust) trainiert, um die Differenz zwischen den Feature-Maps beider Netzwerke zu minimieren. Zur Validierung der vorgeschlagenen Methode wurden drei Emotions-Datensätze (SAVEE, EmoDB und CREMA-D), die aus Sprachdaten bestehen, in log-Mel-Spektrogramme umgewandelt und zur Durchführung von Vergleichsexperimenten verwendet. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl hinsichtlich der gewichteten Genauigkeit als auch hinsichtlich der Anzahl der benötigten Fließkomma-Operationen (FLOPs) deutlich die derzeit besten Ansätze übertrifft. Insgesamt bietet die vorgeschlagene Methode eine vielversprechende Lösung für die SER, indem sie sowohl Effizienz als auch Leistungsfähigkeit verbessert.