
초록
최근 몇 년간 딥 멀티모달 학습은 큰 발전을 이뤘다. 그러나 기존의 융합 방식은 정적인 성격을 지니고 있어, 다양한 멀티모달 데이터에 대한 서로 다른 계산적 요구를 고려하지 않고 동일한 계산을 수행하며 입력을 융합한다. 본 연구에서는 추론 과정에서 데이터에 따라 적응적으로 멀티모달 데이터를 융합하고, 데이터에 의존적인 전방 경로를 생성하는 동적 멀티모달 융합(DynMM)이라는 새로운 접근법을 제안한다. 이를 위해 멀티모달 특징을 기반으로 실시간으로 모달리티 수준 또는 융합 수준의 결정을 내릴 수 있는 게이팅 함수를 제안하고, 계산 효율성을 유도하는 자원 인식 손실 함수를 도입한다. 다양한 멀티모달 작업에 대한 실험 결과는 제안한 방법의 효율성과 광범위한 적용 가능성을 입증한다. 예를 들어, CMU-MOSEI 감정 분석에서는 정적 융합 방법 대비 계산 비용을 46.5% 절감하면서 정확도 손실은 거의 없으며, NYU Depth V2 세분화 작업에서는 계산량을 21% 이상 절감하면서도 성능을 향상시킬 수 있다. 본 연구의 접근법은 다양한 멀티모달 작업에 적용 가능한 동적 멀티모달 네트워크 설계의 새로운 방향을 제시한다고 기대한다.