9일 전

계층적 조건부 관계 네트워크를 활용한 비디오 질의 응답

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran
계층적 조건부 관계 네트워크를 활용한 비디오 질의 응답
초록

비디오 질의응답(VideoQA)은 동적 시각적 요소와 멀리 떨어진 관계를 추출하고 이를 언어적 개념과 연결하는 능력이 필요하기 때문에 도전적인 과제이다. 본 연구에서는 비디오에 대한 표현과 추론을 위한 보다 복잡한 구조를 구성하는 데 사용할 수 있는 일반적인 재사용 가능한 신경망 단위인 조건부 관계망(Conditional Relation Network, CRN)을 제안한다. CRN은 텐서 형태의 객체 배열과 조건 특징(conditioning feature)을 입력으로 받아, 인코딩된 출력 객체 배열을 생성한다. 모델 구축은 다양한 모달리티와 맥락 정보에 맞춰 이러한 재사용 가능한 단위들을 복제, 재배치, 쌓는 간단한 작업으로 이루어진다. 이러한 설계는 고차원 관계 추론과 다단계 추론을 지원한다. 제안된 VideoQA 아키텍처는 하위 비디오 또는 클립을 나타내는 분기들을 가진 CRN 계층 구조이며, 모든 분기는 동일한 질문을 맥락 조건으로 공유한다. 주요 데이터셋에서의 평가 결과, 기존 최고 성능(SoTA)을 초월하는 새로운 최고 성능을 달성하였으며, 복잡한 분야인 VideoQA에 있어서 일반적인 추론 단위를 구축하는 것이 얼마나 큰 영향을 미칠 수 있는지를 입증하였다.