Mirasol3B: 시간 동기화되고 맥락 기반의 다중 모달 자동회귀 모델

다중모달 학습의 주요 과제 중 하나는 이질적인 모달리티(예: 영상, 음성, 텍스트)를 통합해야 한다는 점이다. 예를 들어, 영상과 음성은 텍스트보다 훨씬 높은 샘플링 레이트로 수집되며, 시간적으로 대체로 일치한다. 그러나 이들 모달리티는 텍스트와는 종종 동기화되지 않는데, 텍스트는 일반적으로 전반적인 맥락(예: 제목 또는 설명)으로 제공되기 때문이다. 더불어 영상과 음성 입력은 훨씬 큰 데이터 부피를 가지며, 영상 길이가 길어질수록 그 부피가 비례해 증가한다. 이는 자연스럽게 이러한 모달리티에 더 많은 계산 자원을 할당해야 하며, 장거리 의존성 모델링을 더욱 어렵게 만든다.본 연구에서는 다중모달 모델링을 분리하여, 각 모달리티의 특성에 맞춰 집중적인 자동회귀 모델을 별도로 구성함으로써 이를 해결한다. 우리는 시간적으로 동기화된 모달리티(음성 및 영상)를 처리하는 자동회귀 컴포넌트와, 시간적으로 반드시 일치하지 않지만 여전히 순차적인 구조를 가지는 맥락 모달리티(예: 제목, 설명 등)를 처리하는 자동회귀 컴포넌트로 구성된 다중모달 모델인 Mirasol3B를 제안한다. 영상-음성 입력의 긴 시퀀스 문제를 해결하기 위해, 영상과 음성 시퀀스를 연속적인 스크립트(스니펫)로 나누고, 각 스크립트의 표현을 자동회귀적으로 처리하는 방식을 제안한다. 이를 위해, 일정 시간 프레임 내에서 음성-영상 정보를 공동으로 모델링하는 Combiner 메커니즘을 도입한다. Combiner는 원시적인 시공간 신호로부터 음성 및 영상 특징을 추출하고, 이를 융합하여 각 스크립트당 컴팩트하면서도 표현력이 풍부한 표현을 생성하도록 학습한다.제안하는 방법은 기존에 널리 사용되는 다중모달 벤치마크에서 최신 기준(SOTA) 성능을 달성하며, 훨씬 더 큰 모델들보다 우수한 성능을 보였다. 본 접근법은 컴팩트한 표현을 학습함으로써 미디어 입력의 높은 계산 요구를 효과적으로 완화하며, 음성-영상 특징 표현의 시퀀스 길이를 제어하고, 시간적 의존성을 효율적으로 모델링함으로써 실용적인 다중모달 학습을 가능하게 한다.