7일 전
RTQ: 이미지-텍스트 모델에 기반한 비디오-언어 이해의 재고
Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, Liqiang Nie

초록
최근 영상-언어 이해 분야의 발전은 이미지-텍스트 모델의 기반 위에 구축되어 왔으며, 이미지와 영상 간 공유되는 지식 덕분에 유망한 성과를 거두고 있다. 그러나 영상-언어 이해는 매우 복잡한 의미적 세부 정보를 포함하고 있어 정보 중복, 시계열 의존성, 장면의 복잡성 등 고유한 도전 과제를 안고 있다. 기존 기술들은 이러한 문제들을 부분적으로만 해결하고 있으며, 본 연구의 정량적 분석 결과에 따르면 일부 기법들은 상호 보완적인 성질을 지닌 것으로 나타났다. 이러한 맥락에서 우리는 이러한 과제들을 동시에 해결할 수 있는 새로운 프레임워크인 RTQ(Refine, Temporal model, and Query)를 제안한다. 본 방법은 프레임 내 중복 정보를 정제하고, 프레임 간 시계열 관계를 모델링하며, 영상으로부터 작업에 특화된 정보를 질의하는 세 가지 핵심 단계로 구성된다. 특히 본 모델은 영상-언어 사전 훈련 없이도 뛰어난 성능을 발휘하며, 최첨단 사전 훈련 기법을 사용한 결과와 비교해도 동등하거나 더 우수한 성능을 보였다. 코드는 https://github.com/SCZwangxiao/RTQ-MM2023 에서 공개되어 있다.