음성 정서 인식의 트랜스포머 시대의 도래: 긍정성 격차 해결하기

최근 자기지도(self-supervised) 방식으로 사전 훈련된 트랜스포머 기반 아키텍처의 발전은 여러 기계학습 작업에서 큰 성과를 보여주고 있다. 음성 분야에서는 이러한 아키텍처가 말하는 정서 인식(Speech Emotion Recognition, SER) 분야에서도 성공적으로 활용되고 있다. 그러나 기존 연구들은 모델 크기와 사전 훈련 데이터가 최종 성능에 미치는 영향을 체계적으로 평가하지 않았으며, 일반화 능력, 강건성, 공정성, 효율성에 대한 관심이 제한적이었다. 본 연구에서는 MSP-Podcast 데이터셋의 각성(arousal), 지배성(dominance), 긍정성(valence) 차원에 대해 wav2vec 2.0과 HuBERT의 여러 사전 훈련된 변형 모델을 미세조정(fine-tuning)한 후, 이들 모델의 다양한 측면을 철저히 분석하였다. 추가적으로 IEMOCAP과 MOSI 데이터셋을 활용하여 코퍼스 간 일반화 능력을 평가하였다. 현재까지 알려진 바에 따르면, 본 연구는 명시적인 언어 정보를 사용하지 않고도 MSP-Podcast에서 긍정성 예측 성능으로 최고 수준을 달성하였으며, 일치 상관 계수(CCC)는 0.638을 기록하였다. 또한 본 연구는 트랜스포머 기반 아키텍처가 CNN 기반 기준 모델에 비해 작은 변형에 더 강건하며, 생물학적 성별 그룹에 대해 공정하지만, 개별 화자에 대해서는 그렇지 않음을 밝혀냈다. 특히 본 연구는 트랜스포머 모델이 긍정성 예측에서 뛰어난 성능을 발휘하는 이유가, 트랜스포머 계층의 미세조정 과정에서 암묵적으로 학습된 언어 정보에 기인한다는 것을 처음으로 제시하였다. 이는 최근 텍스트 정보를 명시적으로 활용하는 다중모달 접근법과 유사한 성능을 달성하는 이유를 설명한다. 종합적으로 본 연구의 발견은 트랜스포머 기반 아키텍처가 SER 분야에서 새로운 최고의 성능을 보여주고 있음을 시사하지만, 여전히 강건성과 개별 화자에 대한 문제를 해결하기 위한 추가적인 연구가 필요함을 시사한다. 연구 결과의 재현 가능성을 보장하기 위해, 최고 성능을 기록한 모델을 연구 공동체에 공개한다.