9일 전

비디오-텍스트를 게임 플레이어로 삼아라: 다층적 밴지프 상호작용을 통한 크로스모달 표현 학습

Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen

초록

비디오-언어 표현 학습 접근 방식 중 대조 학습 기반 기법(예: CLIP)은 미리 정의된 비디오-텍스트 쌍 간의 의미적 상호작용을 추구하며 뛰어난 성능을 달성해왔다. 이러한 거시적이고 전반적인 상호작용을 명확히 하고, 더 나아가 미세한 차원의 다모달 학습을 위해 우리는 도전적인 '껍질 깨기' 상호작용을 해결해야 한다. 본 논문에서는 비디오-텍스트를 다변량 협동 게임 이론을 기반으로 한 게임 플레이어로 창의적으로 모델링함으로써, 다양한 세분화 수준, 유연한 조합 방식, 모호한 강도를 가진 미세한 의미적 상호작용 과정에서의 불확실성을 지혜롭게 다루는 방법을 제안한다. 구체적으로, 비디오 프레임과 텍스트 단어 간의 가능한 대응 관계를 정밀하고 설명 가능한 다모달 대조를 위해 계층적 반자프 상호작용(Hierarchical Banzhaf Interaction, HBI)을 제안한다. 다수의 비디오 프레임과 다수의 텍스트 단어 간의 협동 게임을 효율적으로 구현하기 위해, 본 방법은 원본 비디오 프레임(또는 텍스트 단어)을 군집화하고 병합된 토큰 간의 반자프 상호작용을 계산한다. 이러한 토큰 병합 모듈을 계층적으로 중첩함으로써, 다양한 의미 수준에서의 협동 게임을 달성할 수 있다. 일반적으로 사용되는 텍스트-비디오 검색 및 비디오 질의 응답 벤치마크에서 실시한 광범위한 실험을 통해 HBI의 효과성이 입증되었으며, 우수한 성능을 보였다. 더욱 흥미롭게도, HBI는 다모달 상호작용을 시각화하는 도구로도 활용 가능하여, 연구 공동체에 장기적인 영향을 미칠 수 있다. 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://jpthu17.github.io/HBI/.