Command Palette

Search for a command to run...

3달 전

텍스트-오디오 감성 분석을 위한 크로스모달 BERT

{Kai Gao Hua Xu Kaicheng Yang}

초록

다중모달 감성 분석은 기계가 감정을 인식하고 해석하며 표현할 수 있도록 하는 것을 목표로 하는 발전 중인 연구 분야이다. 다중 모달 간의 상호작용을 통해 발화자의 감정 특성을 더욱 포괄적으로 파악할 수 있다. 양방향 트랜스포머 기반 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)은 효율적인 사전 학습된 언어 표현 모델로, 질문 응답 및 자연어 추론과 같은 11개의 자연어 처리 작업에서 새로운 최고 성능을 달성하였다. 그러나 기존 대부분의 연구는 BERT를 텍스트 데이터 기반으로만 미세조정하였으며, 다중모달 정보를 도입함으로써 더 나은 표현을 학습하는 방법에 대해서는 여전히 탐구의 여지가 있다. 본 논문에서는 텍스트와 음성 모달 간의 상호작용을 기반으로 사전 학습된 BERT 모델을 미세조정하는 다중모달 BERT(Cross-Modal BERT, CM-BERT)를 제안한다. CM-BERT의 핵심 구성 요소인 마스크된 다중모달 어텐션은 텍스트와 음성 모달 정보를 결합하여 단어의 가중치를 동적으로 조정하도록 설계되었다. 제안한 방법은 공개된 다중모달 감성 분석 데이터셋인 CMU-MOSI 및 CMU-MOSEI에서 평가되었으며, 실험 결과 기존의 베이스라인 및 텍스트만을 사용한 BERT 미세조정보다 모든 평가 지표에서 유의미한 성능 향상을 보였다. 또한, 마스크된 다중모달 어텐션의 시각화를 통해 음성 모달 정보를 도입함으로써 단어의 가중치를 합리적으로 조정할 수 있음을 입증하였다.

벤치마크

벤치마크방법론지표
multimodal-sentiment-analysis-on-mosiCM-BERT
Accuracy: 84.5%
F1 score: 84.5%

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
텍스트-오디오 감성 분석을 위한 크로스모달 BERT | 연구 논문 | HyperAI초신경