HyperAIHyperAI

Command Palette

Search for a command to run...

CoordViT: Eine neue Methode zur Verbesserung der Sprachemotionserkennung basierend auf Vision Transformer durch Zusammenführung von Koordinateninformationen

Seung-Ho Lee Jeongyoon Kim

Zusammenfassung

Kürzlich zeigte eine auf Transformers basierende Methode zur Sprachemotionserkennung, die Spektrogrammbilder anstelle von Roh-Audiodynamikdaten verwendet, eine höhere Genauigkeit im Vergleich zu herkömmlichen Convolutional Neural Networks (CNNs). Der Vision Transformer (ViT), eine auf Transformers basierende Methode, erreicht eine hohe Klassifizierungspräzision durch die Verarbeitung in Teilbereiche (Patches) des Eingabebildes. Allerdings weist er ein Problem auf: Die räumliche Position der Pixel wird aufgrund von Embedding-Schichten wie der linearen Projektion nicht beibehalten. Daher schlagen wir in diesem Artikel eine neuartige Methode zur Verbesserung der ViT-basierten Sprachemotionserkennung durch die Integration von Koordinateninformationen vor. Da die vorgeschlagene Methode die räumliche Position der Pixel durch das Anhängen von Koordinateninformationen an das Eingabebild beibehält, steigt die Genauigkeit auf dem CREMA-D-Datensatz signifikant auf 82,96 % – eine erhebliche Verbesserung gegenüber dem Stand der Technik auf diesem Datensatz. Die Ergebnisse belegen somit, dass die in diesem Artikel vorgeschlagene Methode der Koordinateninformationen-Integration nicht nur für CNNs, sondern auch für Transformers wirksam ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp