HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration von Emotionsmerkmalen und Fusionsstrategien für die Audio-Video-Emotionserkennung

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

Zusammenfassung

Die audiovisuelle Emotionserkennung zielt darauf ab, ein gegebenes Video in grundlegende Emotionen zu klassifizieren. In diesem Artikel beschreiben wir unsere Ansätze für EmotiW 2019, die sich hauptsächlich mit der Exploration von Emotionsmerkmalen und Merkmalsfusionstrategien für Audio- und Visualsequenzen befassen. Für die Emotionsmerkmale untersuchen wir Audiomerkmale sowohl anhand von Sprachspektrogrammen als auch von Log-Mel-Spektrogrammen und evaluieren mehrere Gesichtsmuster mit verschiedenen CNN-Modellen und unterschiedlichen vorab trainierten Emotionsstrategien. Bei den Fusionstrategien erforschen wir innermodale und intermodale Fusionmethoden, wie zum Beispiel das Design von Aufmerksamkeitsmechanismen, um wichtige Emotionsmerkmale hervorzuheben, sowie die Verkettung von Merkmalen und faktorisierte bilineare Pooling (FBP) zur intermodalen Merkmalsfusion. Durch sorgfältige Evaluation erzielen wir eine Genauigkeit von 65,5 % auf dem AFEW-Validierungsdatensatz und 62,48 % auf dem Testdatensatz und belegen den dritten Platz im Wettbewerb.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Exploration von Emotionsmerkmalen und Fusionsstrategien für die Audio-Video-Emotionserkennung | Paper | HyperAI