Command Palette

Search for a command to run...

4달 전

온라인 다중모달 대화 행위 분류를 위한 계층적 융합

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

온라인 다중모달 대화 행위 분류를 위한 계층적 융합

초록

현재 및 과거 발화의 원시 오디오 및 ASR(음성 인식)를 통한 전사본을 기반으로 온라인 다모달 대화 행위(DA) 분류를 위한 프레임워크를 제안한다. 기존의 다모달 DA 분류 방법은 오디오 모델링의 비효율성과 후기 융합 단계에서의 한계로 인해 제약을 받는다. 본 연구에서는 보다 세밀한 수준에서 모달을 융합하고, 최근의 대규모 언어 모델 및 오디오 모델을 활용하여 오디오 특징을 추출함으로써 다모달 DA 분류 성능에 상당한 향상을 보였다. 또한, 대화 행위 분류를 위한 발화 및 대화의 모델링에 있어 자기 주의(self-attention) 및 교차 주의(cross-attention) 메커니즘의 효과성을 탐구하였다. 제안하는 방법은 대표적인 두 개의 DA 분류 데이터셋인 MRDA와 EMOTyDA에서 기존 최고 성능 모델 대비 F1 점수에서 3퍼센트포인트의 상당한 향상을 달성하였다.

벤치마크

벤치마크방법론지표
dialogue-act-classification-on-emotydaHierarchical Fusion
Accuracy: 63.42
dialogue-act-classification-on-icsi-meetingHierarchical Fusion
Accuracy: 91.8

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
온라인 다중모달 대화 행위 분류를 위한 계층적 융합 | 연구 논문 | HyperAI초신경