11일 전

온라인 다중모달 대화 행위 분류를 위한 계층적 융합

{Ruihong Huang, Adarsh Pyarelal, Md Messal Monem Miah}
온라인 다중모달 대화 행위 분류를 위한 계층적 융합
초록

현재 및 과거 발화의 원시 오디오 및 ASR(음성 인식)를 통한 전사본을 기반으로 온라인 다모달 대화 행위(DA) 분류를 위한 프레임워크를 제안한다. 기존의 다모달 DA 분류 방법은 오디오 모델링의 비효율성과 후기 융합 단계에서의 한계로 인해 제약을 받는다. 본 연구에서는 보다 세밀한 수준에서 모달을 융합하고, 최근의 대규모 언어 모델 및 오디오 모델을 활용하여 오디오 특징을 추출함으로써 다모달 DA 분류 성능에 상당한 향상을 보였다. 또한, 대화 행위 분류를 위한 발화 및 대화의 모델링에 있어 자기 주의(self-attention) 및 교차 주의(cross-attention) 메커니즘의 효과성을 탐구하였다. 제안하는 방법은 대표적인 두 개의 DA 분류 데이터셋인 MRDA와 EMOTyDA에서 기존 최고 성능 모델 대비 F1 점수에서 3퍼센트포인트의 상당한 향상을 달성하였다.

온라인 다중모달 대화 행위 분류를 위한 계층적 융합 | 최신 연구 논문 | HyperAI초신경