다중모달 감성 분석은 기계가 감정을 인식하고 해석하며 표현할 수 있도록 하는 것을 목표로 하는 발전 중인 연구 분야이다. 다중 모달 간의 상호작용을 통해 발화자의 감정 특성을 더욱 포괄적으로 파악할 수 있다. 양방향 트랜스포머 기반 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)은 효율적인 사전 학습된 언어 표현 모델로, 질문 응답 및 자연어 추론과 같은 11개의 자연어 처리 작업에서 새로운 최고 성능을 달성하였다. 그러나 기존 대부분의 연구는 BERT를 텍스트 데이터 기반으로만 미세조정하였으며, 다중모달 정보를 도입함으로써 더 나은 표현을 학습하는 방법에 대해서는 여전히 탐구의 여지가 있다. 본 논문에서는 텍스트와 음성 모달 간의 상호작용을 기반으로 사전 학습된 BERT 모델을 미세조정하는 다중모달 BERT(Cross-Modal BERT, CM-BERT)를 제안한다. CM-BERT의 핵심 구성 요소인 마스크된 다중모달 어텐션은 텍스트와 음성 모달 정보를 결합하여 단어의 가중치를 동적으로 조정하도록 설계되었다. 제안한 방법은 공개된 다중모달 감성 분석 데이터셋인 CMU-MOSI 및 CMU-MOSEI에서 평가되었으며, 실험 결과 기존의 베이스라인 및 텍스트만을 사용한 BERT 미세조정보다 모든 평가 지표에서 유의미한 성능 향상을 보였다. 또한, 마스크된 다중모달 어텐션의 시각화를 통해 음성 모달 정보를 도입함으로써 단어의 가중치를 합리적으로 조정할 수 있음을 입증하였다.