HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

CoordViT: Eine neue Methode zur Verbesserung der Sprachemotionserkennung basierend auf Vision Transformer durch Zusammenführung von Koordinateninformationen

{Seung-Ho Lee Jeongyoon Kim}

Abstract

Kürzlich zeigte eine auf Transformers basierende Methode zur Sprachemotionserkennung, die Spektrogrammbilder anstelle von Roh-Audiodynamikdaten verwendet, eine höhere Genauigkeit im Vergleich zu herkömmlichen Convolutional Neural Networks (CNNs). Der Vision Transformer (ViT), eine auf Transformers basierende Methode, erreicht eine hohe Klassifizierungspräzision durch die Verarbeitung in Teilbereiche (Patches) des Eingabebildes. Allerdings weist er ein Problem auf: Die räumliche Position der Pixel wird aufgrund von Embedding-Schichten wie der linearen Projektion nicht beibehalten. Daher schlagen wir in diesem Artikel eine neuartige Methode zur Verbesserung der ViT-basierten Sprachemotionserkennung durch die Integration von Koordinateninformationen vor. Da die vorgeschlagene Methode die räumliche Position der Pixel durch das Anhängen von Koordinateninformationen an das Eingabebild beibehält, steigt die Genauigkeit auf dem CREMA-D-Datensatz signifikant auf 82,96 % – eine erhebliche Verbesserung gegenüber dem Stand der Technik auf diesem Datensatz. Die Ergebnisse belegen somit, dass die in diesem Artikel vorgeschlagene Methode der Koordinateninformationen-Integration nicht nur für CNNs, sondern auch für Transformers wirksam ist.

Benchmarks

BenchmarkMethodikMetriken
speech-emotion-recognition-on-crema-dCoordViT
Accuracy: 82.96

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CoordViT: Eine neue Methode zur Verbesserung der Sprachemotionserkennung basierend auf Vision Transformer durch Zusammenführung von Koordinateninformationen | Forschungsarbeiten | HyperAI