17일 전

TEASEL: 기반 음성 프리픽스 언어 모델을 갖춘 트랜스포머 기반 모델

Mehdi Arjmand, Mohammad Javad Dousti, Hadi Moradi
TEASEL: 기반 음성 프리픽스 언어 모델을 갖춘 트랜스포머 기반 모델
초록

다중모달 언어 분석은 화자에게서 나오는 말, 음성적 특성, 그리고 얼굴 표정을 동시에 모델링하려는 자연어처리(NLP) 분야의 성장 중인 분야이다. 이 분야에서 사전에 대규모 코퍼스를 기반으로 Transformer 기반 모델로 사전 훈련된 어휘 특징은 일반적으로 다른 모달리티보다 우수한 성능을 보인다. 그러나 이러한 뛰어난 성능에도 불구하고, 다중모달 언어 학습 환경에서는 데이터가 부족하여 특정 모달리티에 대해 새로운 자기지도 학습(Self-Supervised Learning, SSL) Transformer 모델을 훈련하는 것은 보통 불가능하다. 본 연구는 완전한 Transformer 모델을 훈련하지 않고도 이러한 제약을 극복하기 위해, ‘TEASEL(Transformer-based Speech-Prefixed Language Model)’이라는 새로운 모델을 제안한다. TEASEL은 기존의 언어 모델과 달리 텍스트 모달리티 외에 음성 모달리티를 동적 접두사(prefix) 형태로 포함하고 있다. 이 방법은 기존의 사전 훈련된 언어 모델을 다중모달 전환(Transformer) 모델로 활용함으로써, 모달 간의 정보를 효율적으로 통합한다. 우리는 CMU-MOSI 데이터셋에서 정의된 다중모달 감정 분석 작업을 대상으로 TEASEL 모델을 평가하였다. 광범위한 실험 결과, 본 모델은 단모달 기준 모델보다 F1 점수에서 4% 향상되었으며, 현재의 다중모달 최고 성능(SoTA) 모델보다도 1% 우수한 성능을 기록하였다. 또한, 제안한 방법은 SoTA 모델 대비 크기가 72% 작아 효율성이 크게 향상되었다.

TEASEL: 기반 음성 프리픽스 언어 모델을 갖춘 트랜스포머 기반 모델 | 최신 연구 논문 | HyperAI초신경