7일 전
비디오 질문 응답을 위한 학습 상황 하이퍼그래프
Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah

초록
비디오 속 복잡한 상황에 대한 질문에 답하기 위해서는 등장 인물과 물체, 그리고 그들 간의 관계를 포착하는 것뿐만 아니라, 이러한 관계가 시간에 따라 어떻게 변화하는지를 이해하는 것도 필요하다. 상황 하이퍼그래프(Situation Hyper-Graph)는 비디오 프레임에 대한 장면 하위그래프로 상황을 표현하고, 연결된 하위그래프들 간의 관계를 하이퍼엣지로 표현하는 구조로, 이러한 모든 정보를 간결한 구조적 형태로 포착하기 위해 제안된 방법이다. 본 연구에서는 입력 비디오 클립에서 행동과 객체/인간-객체 관계를 암묵적으로 식별하는 상황 하이퍼그래프 디코더를 학습시켜, 예측된 상황 하이퍼그래프와 질문 임베딩 간의 크로스 어텐션을 활용해 비디오 콘텐츠와 관련된 질문에 정확한 답변을 예측할 수 있는 Video Question Answering(VQA) 아키텍처를 제안한다. 이를 위해 제안된 방법은 엔드투엔드(end-to-end) 방식으로 학습되며, VQA 손실 함수(교차 엔트로피 함수)와 상황 그래프 예측을 위한 허그리안 매칭 손실(Hungarian matching loss)을 통해 최적화된다. 제안된 아키텍처의 효과성은 AGQA와 STAR라는 두 가지 도전적인 벤치마크에서 광범위하게 평가되었으며, 실험 결과는 상황 하이퍼그래프를 학습함으로써 비디오 질의응답 작업의 새로운 도전 과제에 대해 시스템의 성능이 크게 향상됨을 보여준다.