Lernen von Emotionsrepräsentationen aus verbaler und nichtverbaler Kommunikation

Das Verständnis von Emotionen ist eine wesentliche, aber äußerst herausfordernde Komponente der künstlichen allgemeinen Intelligenz. Der Mangel an umfangreich annotierten Datensätzen hat die Fortschritte in diesem Bereich erheblich behindert. Wir stellen EmotionCLIP vor, das erste Prätrainierungsparadigma, das visuelle Emotionsrepräsentationen aus verbaler und nichtverbaler Kommunikation unter Verwendung nur ungekürfter Daten extrahiert. Im Vergleich zu den numerischen Labels oder Beschreibungen, die in früheren Methoden verwendet wurden, enthält Kommunikation natürlicherweise Emotionsinformationen. Darüber hinaus ist das Erlernen von Emotionsrepräsentationen aus Kommunikation mit dem menschlichen Lernprozess besser vereinbar. Wir führen EmotionCLIP durch kontextsensitive Codierung, die sich auf das Subjekt bezieht, an nichtverbale emotionale Hinweise heran und durch sentimentgeleitetes kontrastives Lernen an verbale emotionale Hinweise. Ausführliche Experimente bestätigen die Effektivität und Übertragbarkeit von EmotionCLIP. Unter Verwendung des einfachen linearen Evaluationsprotokolls übertrifft EmotionCLIP die besten bisher bekannten überwachten Methoden für visuelle Emotionserkennung und kommt vielen multimodalen Ansätzen bei verschiedenen Benchmarks gleich. Wir erwarten, dass die Einführung von EmotionCLIP das vorherrschende Problem der Datenknappheit im Bereich der Emotionsverarbeitung lösen wird und damit Fortschritte in verwandten Bereichen fördert. Der Code und die prätrainierten Modelle sind unter https://github.com/Xeaver/EmotionCLIP verfügbar.