10일 전

비디오 그래프 트랜스포머를 통한 대조형 비디오 질의응답

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua
비디오 그래프 트랜스포머를 통한 대조형 비디오 질의응답
초록

우리는 비디오 그래프 트랜스포머 모델(CoVGT)을 통해 대조적 방식으로 비디오 질의응답(VideoQA)을 수행하는 것을 제안한다. CoVGT의 독창성과 우수성은 세 가지 측면에서 나타난다. 첫째, 비디오의 시각적 객체, 그 관계, 그리고 동적 변화를 명시적으로 포착함으로써 복잡한 시공간 추론을 위한 동적 그래프 트랜스포머 모듈을 제안한다. 둘째, 답변 분류를 위한 다모달 트랜스포머 대신, 비디오와 텍스트 간의 대조 학습을 위해 별도의 비디오 및 텍스트 트랜스포머를 설계하였으며, 보다 세밀한 비디오-텍스트 간 상호작용은 추가적인 교차모달 상호작용 모듈을 통해 수행한다. 셋째, 올바른 답변과 잘못된 답변 사이, 그리고 관련 질문과 무관한 질문 사이에서 완전 자율적 및 자기지도 학습 기반의 대조적 목적함수를 공동으로 최적화한다. 우수한 비디오 인코딩 및 QA 솔루션을 통해 CoVGT가 이전의 기술들보다 훨씬 뛰어난 성능을 비디오 추론 작업에서 달성할 수 있음을 보여준다. 이 성능은 수백만 개의 외부 데이터로 사전학습된 모델들조차도 초월한다. 또한 CoVGT가 교차모달 사전학습을 통해 이점을 얻을 수 있음을 보여주며, 이는 데이터 양이 수십만 배 이상 적은 상황에서도 가능하다. 이러한 결과는 CoVGT의 효과성과 우수성을 입증할 뿐만 아니라, 보다 데이터 효율적인 사전학습을 위한 잠재력을 시사한다. 우리는 이러한 성공이 비디오 질의응답의 발전을 더 이상 추상적인 인식/기술의 수준을 넘어서, 비디오 콘텐츠의 세밀한 관계 추론으로 이끌어내기를 기대한다. 코드는 https://github.com/doc-doc/CoVGT 에서 공개되어 있다.