Exploration von Emotionsmerkmalen und Fusionsstrategien für die Audio-Video-Emotionserkennung

Die audiovisuelle Emotionserkennung zielt darauf ab, ein gegebenes Video in grundlegende Emotionen zu klassifizieren. In diesem Artikel beschreiben wir unsere Ansätze für EmotiW 2019, die sich hauptsächlich mit der Exploration von Emotionsmerkmalen und Merkmalsfusionstrategien für Audio- und Visualsequenzen befassen. Für die Emotionsmerkmale untersuchen wir Audiomerkmale sowohl anhand von Sprachspektrogrammen als auch von Log-Mel-Spektrogrammen und evaluieren mehrere Gesichtsmuster mit verschiedenen CNN-Modellen und unterschiedlichen vorab trainierten Emotionsstrategien. Bei den Fusionstrategien erforschen wir innermodale und intermodale Fusionmethoden, wie zum Beispiel das Design von Aufmerksamkeitsmechanismen, um wichtige Emotionsmerkmale hervorzuheben, sowie die Verkettung von Merkmalen und faktorisierte bilineare Pooling (FBP) zur intermodalen Merkmalsfusion. Durch sorgfältige Evaluation erzielen wir eine Genauigkeit von 65,5 % auf dem AFEW-Validierungsdatensatz und 62,48 % auf dem Testdatensatz und belegen den dritten Platz im Wettbewerb.