7일 전

비디오 질문 응답을 위한 학습 상황 하이퍼그래프

Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah
비디오 질문 응답을 위한 학습 상황 하이퍼그래프
초록

비디오 속 복잡한 상황에 대한 질문에 답하기 위해서는 등장 인물과 물체, 그리고 그들 간의 관계를 포착하는 것뿐만 아니라, 이러한 관계가 시간에 따라 어떻게 변화하는지를 이해하는 것도 필요하다. 상황 하이퍼그래프(Situation Hyper-Graph)는 비디오 프레임에 대한 장면 하위그래프로 상황을 표현하고, 연결된 하위그래프들 간의 관계를 하이퍼엣지로 표현하는 구조로, 이러한 모든 정보를 간결한 구조적 형태로 포착하기 위해 제안된 방법이다. 본 연구에서는 입력 비디오 클립에서 행동과 객체/인간-객체 관계를 암묵적으로 식별하는 상황 하이퍼그래프 디코더를 학습시켜, 예측된 상황 하이퍼그래프와 질문 임베딩 간의 크로스 어텐션을 활용해 비디오 콘텐츠와 관련된 질문에 정확한 답변을 예측할 수 있는 Video Question Answering(VQA) 아키텍처를 제안한다. 이를 위해 제안된 방법은 엔드투엔드(end-to-end) 방식으로 학습되며, VQA 손실 함수(교차 엔트로피 함수)와 상황 그래프 예측을 위한 허그리안 매칭 손실(Hungarian matching loss)을 통해 최적화된다. 제안된 아키텍처의 효과성은 AGQA와 STAR라는 두 가지 도전적인 벤치마크에서 광범위하게 평가되었으며, 실험 결과는 상황 하이퍼그래프를 학습함으로써 비디오 질의응답 작업의 새로운 도전 과제에 대해 시스템의 성능이 크게 향상됨을 보여준다.

비디오 질문 응답을 위한 학습 상황 하이퍼그래프 | 최신 연구 논문 | HyperAI초신경