2달 전

대화에서 다중 모드 감정 인식을 위한 효율적인 장거리 잠재 관계 인지 그래프 신경망

Yuntao Shou; Wei Ai; Jiayi Du; Tao Meng; Haiyan Liu; Nan Yin
대화에서 다중 모드 감정 인식을 위한 효율적인 장거리 잠재 관계 인지 그래프 신경망
초록

대화에서의 다중 모달 감정 인식(Multi-Modal Emotion Recognition in Conversation, MERC) 작업은 대화 내의 다중 모달 정보를 기반으로 각 발화의 진정한 감정 상태를 분석하는 것을 목표로 하며, 이는 대화 이해에 매우 중요합니다. 기존 방법들은 그래프 신경망(Graph Neural Networks, GNN)을 사용하여 대화 관계를 모델링하고 문맥적 잠재 의미 관계를 포착하는 데 중점을 두고 있습니다. 그러나 GNN의 복잡성 때문에 기존 방법들은 장거리 발화 간의 잠재적 의존성을 효율적으로 포착하지 못하며, 이는 MERC의 성능을 제한합니다. 본 논문에서는 대화에서의 다중 모달 감정 인식을 위해 효율적인 장거리 잠재 관계 인식 그래프 신경망(Efficient Long-distance Latent Relation-aware Graph Neural Network, ELR-GNN)을 제안합니다. 구체적으로, 먼저 사전 추출된 텍스트, 비디오 및 오디오 특징들을 Bi-LSTM에 입력하여 문맥적 의미 정보를 포착하고 저수준 발화 특징을 얻습니다. 그런 다음 저수준 발화 특징을 이용하여 대화 감정 상호작용 그래프를 구성합니다. 장거리 발화 간의 잠재적 의존성을 효율적으로 포착하기 위해, 우리는 확장된 일반화된 전방 푸시 알고리즘(dilated generalized forward push algorithm)을 사용하여 전역 발화 간의 감정 전파를 미리 계산하고, 다른 발화들 간의 잠재적 의미 연관성을 포착하기 위한 감정 관계 인식 연산자(emotional relation-aware operator)를 설계합니다. 또한, 초기 융합(early fusion)과 적응형 후기 융합(adaptive late fusion) 메커니즘을 결합하여 화자 관계 정보와 문맥 사이의 잠재 의존성 정보를 융합합니다. 마지막으로 고수준 담론 특징을 얻어 MLP로 감정 예측을 수행합니다. 광범위한 실험 결과는 ELR-GNN이 벤치마크 데이터셋인 IEMOCAP과 MELD에서 최신 수준의 성능을 달성하며, 실행 시간이 각각 52%와 35% 줄어들었다는 것을 보여줍니다.

대화에서 다중 모드 감정 인식을 위한 효율적인 장거리 잠재 관계 인지 그래프 신경망 | 최신 연구 논문 | HyperAI초신경