9일 전

텐센트 텍스트-비디오 검색: 다수 수준 표현을 활용한 계층적 교차 모달 상호작용

Jie Jiang, Shaobo Min, Weijie Kong, Dihong Gong, Hongfa Wang, Zhifeng Li, Wei Liu
텐센트 텍스트-비디오 검색: 다수 수준 표현을 활용한 계층적 교차 모달 상호작용
초록

텍스트-비디오 검색(Text-Video Retrieval)은 다중 모달 이해에서 중요한 역할을 하며, 최근 들어 점점 더 많은 주목을 받고 있다. 기존의 대부분의 방법들은 전체 비디오와 완전한 문장 캡션 간의 대조 쌍을 구성하는 데 초점을 맞추고 있으나, 세밀한 다중 모달 관계—예를 들어 클립-어절 또는 프레임-단어 수준의 관계—를 간과하고 있다. 본 논문에서는 비디오-문장, 클립-어절, 프레임-단어 수준에서 다중 수준의 다중 모달 관계를 탐색하기 위해 새로운 방법인 계층적 다중 모달 상호작용(Hierarchical Cross-Modal Interaction, HCMI)을 제안한다. HCMI는 내재된 의미적 프레임 관계를 고려하여, 프레임 수준의 상관관계를 탐색하기 위해 자기 주의(Self-attention)를 수행하고, 관련성이 높은 프레임들을 적응적으로 클립 수준 및 비디오 수준의 표현으로 군집화한다. 이를 통해 HCMI는 프레임-클립-비디오의 다양한 해상도에 맞는 다중 수준의 비디오 표현을 구성하여 세밀한 비디오 콘텐츠를 포착하고, 단어-어절-문장의 다양한 해상도에 맞는 다중 수준의 텍스트 표현을 텍스트 모달리티에 대해 구축한다. 비디오와 텍스트에 대한 다중 수준 표현을 기반으로, 계층적 대조 학습(Hierarchical Contrastive Learning)을 설계하여 프레임-단어, 클립-어절, 비디오-문장과 같은 세밀한 다중 모달 관계를 탐색함으로써, 비디오와 텍스트 모달리티 간의 포괄적인 의미적 비교를 가능하게 한다. 또한 적응형 레이블 노이즈 제거와 경계 샘플 강화 기법을 통해 성능을 추가로 향상시켜, MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet 등 다양한 벤치마크에서 새로운 최고 성능을 기록하였으며, 각각 Rank@1에서 55.0%, 58.2%, 29.7%, 52.1%, 57.3%의 성과를 달성하였다.