7일 전

COOT: 비디오-텍스트 표현 학습을 위한 협업형 계층 구조 트랜스포머

Simon Ging, Mohammadreza Zolfaghari, Hamed Pirsiavash, Thomas Brox
COOT: 비디오-텍스트 표현 학습을 위한 협업형 계층 구조 트랜스포머
초록

실제 세계의 비디오-텍스트 작업은 프레임과 단어, 클립과 문장, 또는 비디오와 단락과 같이 서로 다른 세분성 수준을 포함하며, 각각 고유한 의미를 갖는다. 본 논문에서는 이러한 계층 구조 정보를 활용하고, 서로 다른 세분성 수준 간 및 다양한 모달 간의 상호작용을 모델링하기 위해 협업형 계층적 트랜스포머(COOT, Cooperative hierarchical Transformer)를 제안한다. 제안된 방법은 세 가지 주요 구성 요소로 이루어져 있다: 지역적 시간적 맥락(내부 수준, 예: 클립 내부)을 활용하는 어텐션 인식 특징 집계 레이어, 저수준과 고수준 의미 간의 상호작용을 학습하는 컨텍스트 트랜스포머(외부 수준, 예: 클립-비디오, 문장-단락), 그리고 비디오와 텍스트를 연결하는 교차 모달 사이클 일관성 손실(cross-modal cycle-consistency loss). 제안된 방법은 여러 벤치마크에서 최신 기술 대비 우수한 성능을 보이며, 파라미터 수가 매우 적다. 모든 코드는 공개 소스로 제공되며, https://github.com/gingsi/coot-videotext 에서 확인할 수 있다.

COOT: 비디오-텍스트 표현 학습을 위한 협업형 계층 구조 트랜스포머 | 최신 연구 논문 | HyperAI초신경