9일 전
Tem-Adapter: 비디오 질문 응답을 위한 이미지-텍스트 사전학습 적응
Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang

초록
영상-언어 사전 학습 모델은 영상 질의응답(VideoQA) 작업을 안내하는 데 있어 놀라운 성공을 거두었다. 그러나 영상 시퀀스의 길이로 인해 영상 기반 대규모 모델을 학습하는 데는 이미지 기반 모델 학습보다 훨씬 높은 비용이 소요된다. 이에 따라 이미지 기반 사전 학습에서 얻은 지식을 활용하되, 이미지와 영상 간의 명백한 도메인 차이를 고려하여, 본 논문에서는 시각적 시간 동역학과 복잡한 의미를 학습할 수 있도록 시간적 정렬기(Temporal Aligner)와 텍스트적 의미 정렬기(Semantic Aligner)를 갖춘 Tem-Adapter를 제안한다. 기존의 사전 학습 지식 적응 방법이 하류 작업 목적에만 집중하는 반면, 시간적 정렬기는 과거의 정보와 이벤트 진행을 설명하는 언어적 가이던스를 기반으로 미래 상태를 예측하는 언어 유도 자동회귀 태스크를 추가하여 시간적 종속성 학습을 촉진한다. 또한 의미 간 격차를 줄이고 텍스트 표현을 더 나은 이벤트 설명에 적합하도록 조정하기 위해, 질문-답변 쌍을 이벤트 설명으로 융합하는 템플릿을 설계한 후, 전체 영상 시퀀스를 가이던스로 삼아 Transformer 디코더를 학습하는 의미 정렬기(Semantic Aligner)를 도입한다. 제안한 Tem-Adapter와 다양한 사전 학습 전이 방법을 두 가지 VideoQA 벤치마크에서 평가한 결과, 유의미한 성능 향상이 나타나며 본 방법의 효과성을 입증하였다.