Ein transformerbasiertes Modell mit Selbst-Verdichtung für die multimodale Emotionserkennung in Konversationen

Die Erkennung von Emotionen in Konversationen (ERC), die Aufgabe, die Emotion jedes Äußerungsakts in einer Konversation zu erkennen, ist entscheidend für die Entwicklung von emphatischen Maschinen. Bestehende Studien konzentrieren sich hauptsächlich auf das Erfassen kontext- und sprecherbezogener Abhängigkeiten im textuellen Modus, ignorieren jedoch die Bedeutung multimodaler Informationen. Im Gegensatz zur Emotionserkennung in textbasierten Konversationen spielen das Erfassen von intra- und intermodalen Interaktionen zwischen den Äußerungen, das Lernen der Gewichte zwischen verschiedenen Modalitäten und das Verbessern der modalen Repräsentationen eine wichtige Rolle bei der multimodalen ERC. In dieser Arbeit schlagen wir ein transformerbasiertes Modell mit Selbstdestillierung (SDT) für diese Aufgabe vor. Das transformerbasierte Modell erfasst intra- und intermodale Interaktionen durch den Einsatz von intra- und intermodalen Transformatoren und lernt die Gewichte zwischen den Modalitäten dynamisch durch die Entwicklung einer hierarchischen gattergesteuerten Fusionsstrategie. Darüber hinaus, um ausdrucksstärkere modale Repräsentationen zu lernen, behandeln wir die weichen Labels des vorgeschlagenen Modells als zusätzliche Trainingsüberwachung. Insbesondere führen wir Selbstdestillierung ein, um Wissen von harten und weichen Labels vom vorgeschlagenen Modell auf jede Modaltät zu übertragen. Experimente mit den Datensätzen IEMOCAP und MELD zeigen, dass SDT die bisher besten Baseline-Methoden übertreffen kann.