
다중 모달 간 상호작용은 텍스트-비디오 검색(Text-Video Retrieval, TVR)에서 핵심적인 구성 요소이지만, 상호작용을 계산하는 데 영향을 미치는 다양한 요인들이 성능에 미치는 영향에 대한 체계적인 연구는 여전히 부족한 실정이다. 본 논문은 먼저 상호작용 패러다임을 심층적으로 분석하여, 상호작용 계산이 서로 다른 계층 구조에서의 상호작용 내용과 동일한 의미를 가진 쌍을 구분하는 매칭 함수로 나뉘어짐을 발견하였다. 또한 단일 벡터 표현과 암묵적인 강도 함수가 최적화 과정을 크게 제한함을 관찰하였다. 이러한 발견을 바탕으로, 순차적이고 계층적인 표현을 포착할 수 있는 분리형(fully disentangled) 프레임워크를 제안한다. 먼저, 텍스트와 비디오 입력 모두에 자연스럽게 존재하는 순차적 구조를 고려하여, 토큰 단위의 가중 상호작용(Weighted Token-wise Interaction, WTI) 모듈을 도입하여 콘텐츠를 분리하고 쌍 간 상관관계를 적응적으로 활용한다. 이 상호작용은 순차적 입력에 대해 더 나은 분리된 매니폴드를 형성할 수 있다. 둘째, 비교되는 벡터의 구성 요소 간 중복을 최소화하기 위해 채널 비상관 정규화(Channel DeCorrelation Regularization, CDCR)를 도입하여 계층적 표현 학습을 촉진한다. 제안한 분리형 표현의 효과는 다양한 벤치마크에서 입증되었으며, MSR-VTT, MSVD, VATEX, LSMDC, ActivityNet, DiDeMo에서 각각 R@1 기준으로 CLIP4Clip 대비 +2.9%, +3.1%, +7.9%, +2.3%, +2.8%, +6.5%의 성능 향상을 달성하였다.