
다중모달 감정 분석(Multimodal Sentiment Analysis, MSA)에서 모델의 성능은 합성 임베딩의 품질에 크게 의존한다. 이러한 임베딩은 입력된 단모달(raw) 데이터를 추출하고 통합하여 더 풍부한 다중모달 표현을 생성하는 것을 목표로 하는 상류 프로세스인 다중모달 융합(multimodal fusion)을 통해 생성된다. 기존의 연구들은 유용한 융합 결과를 도출하기 위해 작업 손실을 역전파하거나 특징 공간의 기하학적 성질을 조작하는 방식을 사용해 왔으나, 입력에서 융합 결과로 전달되는 중요한 작업 관련 정보의 보존을 간과하고 있다. 본 연구에서는 다중모달 융합 과정을 통해 작업 관련 정보를 유지하기 위해, 단모달 입력 쌍 간의 상호정보량(Mutual Information, MI)을 계층적으로 최대화하고, 다중모달 융합 결과와 단모달 입력 간의 상호정보량을 최대화하는 프레임워크인 MultiModal InfoMax(MMIM)을 제안한다. 이 프레임워크는 주 작업(MSA)과 함께 공동으로 학습되어 하류 MSA 작업의 성능을 향상시킨다. 또한, 상호정보량의 추정이 계산적으로 불가능한 문제를 해결하기 위해, 그 진실 값을 근사하는 계산적으로 간단한 파라메트릭 및 비파라메트릭 방법들을 제안한다. 두 개의 널리 사용되는 데이터셋에서 수행된 실험 결과는 본 방법의 효과성을 입증한다. 본 연구의 구현 코드는 공개되어 있으며, https://github.com/declare-lab/Multimodal-Infomax 에서 확인할 수 있다.