
이 논문은 영상 질의응답(VideoQA)을 위한 비디오 그래프 트랜스포머(VGT) 모델을 제안한다. VGT의 독창성은 두 가지 측면에서 나타난다. 첫째, 복잡한 시공간 추론을 위해 시각적 객체, 그 관계, 그리고 동적 변화를 명시적으로 포착하는 동적 그래프 트랜스포머 모듈을 설계하였다. 둘째, 답변 분류를 위한 엔트러블된 다모달 트랜스포머 대신, 영상과 텍스트 간의 관련성 비교를 위해 분리된(디센틀드) 영상 및 텍스트 트랜스포머를 활용하였다. 영상과 텍스트 간의 상호작용은 추가적인 다모달 상호작용 모듈을 통해 수행된다. 더 합리적인 영상 인코딩 및 QA 해결 방식을 통해, VGT는 사전 훈련 없이도 기존 기법보다 동적 관계 추론을 요구하는 VideoQA 과제에서 훨씬 뛰어난 성능을 달성함을 보였다. 이 성능은 수백만 개의 외부 데이터로 사전 훈련된 모델들조차 넘어서는 결과를 보였다. 또한, VGT는 자기지도 학습 기반의 다모달 사전 훈련을 통해 상당한 성능 향상을 얻을 수 있음을 확인하였으며, 이때 사용하는 데이터 양은 기존 방법에 비해 수 개의 주문 수준으로 훨씬 적다. 이러한 결과는 VGT의 효과성과 우수성을 명확히 보여주며, 더 효율적인 데이터 사용을 위한 사전 훈련의 잠재력을 시사한다. 종합적인 분석과 몇 가지 히우리스틱적 관찰을 통해, VGT가 현실적인 영상에서 세부적인 관계 추론으로 나아가, 단순한 인식/기술에 그치지 않는 VQA 연구를 촉진할 수 있기를 기대한다. 본 논문의 코드는 https://github.com/sail-sg/VGT 에서 공개되어 있다.