HyperAIHyperAI
vor 2 Monaten

Vielseitiges audiovisuelles Lernen zur Emotionserkennung

Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso
Vielseitiges audiovisuelles Lernen zur Emotionserkennung
Abstract

Die meisten aktuellen Modelle zur Erkennung von Emotionen aus Audio- und Video-Daten fehlen die Flexibilität, die für die Implementierung in praktischen Anwendungen erforderlich ist. Wir haben uns ein multimodales System vorgestellt, das auch dann funktioniert, wenn nur eine Modaliät verfügbar ist, und flexibel sowohl für die Vorhersage emotionaler Attribute als auch für die Kategorisierung von Emotionen eingesetzt werden kann. Die Erreichung einer solchen Flexibilität in einem multimodalen Emotionserkennungssystem ist schwierig aufgrund der inhärenten Herausforderungen bei der genauen Interpretation und Integration verschiedener Datensources. Es stellt sich auch die Herausforderung, fehlende oder partielle Informationen robust zu verarbeiten, während man direkt zwischen Regressions- und Klassifikationsaufgaben wechseln kann. Diese Studie schlägt einen vielseitigen audiovisuellen Lernrahmen (VAVL) vor, um unimodale und multimodale Systeme für Emotionsregression oder -klassifikation zu handhaben. Wir implementieren einen audiovisuellen Rahmen, der auch dann trainiert werden kann, wenn keine gepaarten Audio- und Videodaten für einen Teil des Trainingssets vorhanden sind (d.h., nur Audio oder nur Video ist vorhanden). Wir erreichen dieses effektive Repräsentationslernen durch audiovisuelle gemeinsame Schichten, Residualverbindungen über diese Schichten sowie durch eine unimodale Rekonstruktionsaufgabe. Unsere experimentellen Ergebnisse zeigen, dass unsere Architektur erheblich bessere Leistungen als starke Baseline-Modelle auf den Korpora CREMA-D, MSP-IMPROV und CMU-MOSEI erzielt. Bemerkenswerterweise erreicht VAVL eine neue Standarte der Technik in der Aufgabe der Vorhersage emotionaler Attribute im Korpus MSP-IMPROV.请注意,这里有一些细节上的调整以确保译文更加符合德语的表达习惯和正式性:"Datensources" 被翻译为 "Datensources" 以保持专业术语的一致性,但通常会使用 "Datenquellen"。"Standarte der Technik" 是 "state-of-the-art" 的常用德语翻译。为了提高流畅性和正式性,一些句子结构进行了微调。以下是进一步优化后的版本:Die meisten aktuellen Modelle zur Erkennung von Emotionen aus Audio- und Video-Daten besitzen nicht die Flexibilität, die für praktische Anwendungen erforderlich ist. Wir haben uns ein multimodales System vorgestellt, das auch dann funktioniert, wenn nur eine Modaliät verfügbar ist, und flexibel sowohl für die Vorhersage emotionaler Attribute als auch für die Kategorisierung von Emotionen eingesetzt werden kann. Die Erreichung einer solchen Flexibilität in einem multimodalen Emotionserkennungssystem ist schwierig aufgrund der inhärenten Herausforderungen bei der genauen Interpretation und Integration verschiedener Datenquellen. Eine weitere Herausforderung besteht darin, fehlende oder partielle Informationen robust zu verarbeiten, während man direkt zwischen Regressions- und Klassifikationsaufgaben wechseln kann. Diese Studie schlägt einen vielseitigen audiovisuellen Lernrahmen (VAVL) vor, um unimodale und multimodale Systeme für Emotionsregression oder -klassifikation zu handhaben. Wir implementieren einen audiovisuellen Rahmenwerk (Framework), der auch dann trainiert werden kann, wenn keine gepaarten Audio- und Videodaten für einen Teil des Trainingssets vorhanden sind (d.h., nur Audio oder nur Video ist vorhanden). Dieses effektive Repräsentationslernen erreichen wir durch audiovisuelle gemeinsame Schichten, Residualverbindungen über diese Schichten sowie durch eine unimodale Rekonstruktionsaufgabe. Unsere experimentellen Ergebnisse zeigen, dass unsere Architektur erheblich bessere Leistungen als starke Baseline-Modelle auf den Korpora CREMA-D, MSP-IMPROV und CMU-MOSEI erzielt. Bemerkenswerterweise erreicht VAVL eine neue Standarte der Technik in der Aufgabe der Vorhersage emotionaler Attribute im Korpus MSP-IMPROV.