HyperAI

초록

현재 및 과거 발화의 원시 오디오 및 ASR(음성 인식)를 통한 전사본을 기반으로 온라인 다모달 대화 행위(DA) 분류를 위한 프레임워크를 제안한다. 기존의 다모달 DA 분류 방법은 오디오 모델링의 비효율성과 후기 융합 단계에서의 한계로 인해 제약을 받는다. 본 연구에서는 보다 세밀한 수준에서 모달을 융합하고, 최근의 대규모 언어 모델 및 오디오 모델을 활용하여 오디오 특징을 추출함으로써 다모달 DA 분류 성능에 상당한 향상을 보였다. 또한, 대화 행위 분류를 위한 발화 및 대화의 모델링에 있어 자기 주의(self-attention) 및 교차 주의(cross-attention) 메커니즘의 효과성을 탐구하였다. 제안하는 방법은 대표적인 두 개의 DA 분류 데이터셋인 MRDA와 EMOTyDA에서 기존 최고 성능 모델 대비 F1 점수에서 3퍼센트포인트의 상당한 향상을 달성하였다.

벤치마크	방법론	지표
dialogue-act-classification-on-emotyda	Hierarchical Fusion	Accuracy: 63.42
dialogue-act-classification-on-icsi-meeting	Hierarchical Fusion	Accuracy: 91.8

벤치마크

방법론

지표

dialogue-act-classification-on-emotyda

Hierarchical Fusion

Accuracy: 63.42

dialogue-act-classification-on-icsi-meeting

Hierarchical Fusion

Accuracy: 91.8

온라인 다중모달 대화 행위 분류를 위한 계층적 융합

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

온라인 다중모달 대화 행위 분류를 위한 계층적 융합

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters