CoordViT: Eine neue Methode zur Verbesserung der Sprachemotionserkennung basierend auf Vision Transformer durch Zusammenführung von Koordinateninformationen
Kürzlich zeigte eine auf Transformers basierende Methode zur Sprachemotionserkennung, die Spektrogrammbilder anstelle von Roh-Audiodynamikdaten verwendet, eine höhere Genauigkeit im Vergleich zu herkömmlichen Convolutional Neural Networks (CNNs). Der Vision Transformer (ViT), eine auf Transformers basierende Methode, erreicht eine hohe Klassifizierungspräzision durch die Verarbeitung in Teilbereiche (Patches) des Eingabebildes. Allerdings weist er ein Problem auf: Die räumliche Position der Pixel wird aufgrund von Embedding-Schichten wie der linearen Projektion nicht beibehalten. Daher schlagen wir in diesem Artikel eine neuartige Methode zur Verbesserung der ViT-basierten Sprachemotionserkennung durch die Integration von Koordinateninformationen vor. Da die vorgeschlagene Methode die räumliche Position der Pixel durch das Anhängen von Koordinateninformationen an das Eingabebild beibehält, steigt die Genauigkeit auf dem CREMA-D-Datensatz signifikant auf 82,96 % – eine erhebliche Verbesserung gegenüber dem Stand der Technik auf diesem Datensatz. Die Ergebnisse belegen somit, dass die in diesem Artikel vorgeschlagene Methode der Koordinateninformationen-Integration nicht nur für CNNs, sondern auch für Transformers wirksam ist.