13일 전

RoME: 텍스트-비디오 검색을 위한 역할 인지형 전문가 혼합 트랜스포머

Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
RoME: 텍스트-비디오 검색을 위한 역할 인지형 전문가 혼합 트랜스포머
초록

소셜 채널의 인기로 매일 수많은 영상이 업로드되고 있으며, 사용자의 텍스트 쿼리와 가장 관련성이 높은 영상 콘텐츠를 효과적으로 검색하는 것은 더욱 중요한 과제가 되고 있다. 기존의 대부분의 방법들은 전역적인 시각적 특징과 텍스트 특징 간의 단일 통합 임베딩 공간만을 고려하며, 각 모달리티의 국소적 구조는 무시한다. 일부 다른 접근법은 전역 및 국소적 특징을 별도로 구성한 다수의 임베딩 공간을 고려하지만, 모달리티 간의 � богrich한 상호관계를 간과한다.이에 우리는 새로운 믹스처 오브 익스퍼트 트랜스포머인 RoME를 제안한다. RoME는 텍스트와 영상의 관계를 공간적 맥락, 시간적 맥락, 객체적 맥락의 세 가지 수준으로 분리하여 모델링한다. 트랜스포머 기반의 어텐션 메커니즘을 활용하여 전역 및 국소 수준에서 시각적 및 텍스트 임베딩을 최대한 효과적으로 활용하며, 믹스처 오브 익스퍼트(Mixture of Experts)를 도입하여 모달리티 간 및 구조 간의 상관관계를 고려한다. 실험 결과, 사전 훈련 없이 동일한 시각적 백본을 사용했을 때, 제안한 방법은 YouCook2 및 MSR-VTT 데이터셋에서 최신 기술(SOTA)을 초월하는 성능을 보였다. 마지막으로, 설계 선택의 타당성을 입증하기 위해 광범위한 아블레이션 연구를 수행하였다.

RoME: 텍스트-비디오 검색을 위한 역할 인지형 전문가 혼합 트랜스포머 | 최신 연구 논문 | HyperAI초신경