
자연 동영상에서의 이벤트는 일반적으로 배우자와 객체 간의 시공간 상호작용에서 발생하며, 여러 개의 동시 활동과 객체 클래스를 포함합니다. 이러한 풍부한 시각적 및 의미적 맥락을 포착하기 위해, 우리는 두 가지 그래프를 사용하는 것을 제안합니다: (1) 배우자와 객체에 해당하는 노드와 다양한 유형의 상호작용을 인코딩하는 엣지로 구성된 속성 기반 시공간 시각 그래프(attributed spatio-temporal visual graph), 그리고 (2) 의미 관계를 모델링하는 기호 그래프(symbolic graph)입니다. 또한, 이러한 하이브리드 그래프에서 배우자, 객체 및 그들의 상호작용의 표현을 정교화하기 위한 그래프 신경망(graph neural network)을 제안합니다. 우리의 모델은 현재 모든 노드와 엣지가 같은 유형인 것으로 가정하고, 고정된 엣지 가중치를 사용하며, 기호 그래프를 사용하지 않는 접근 방식들을 넘어섭니다. 특히, 우리의 프레임워크는 다음과 같습니다: a) 서로 다른 노드와 엣지 유형에 대한 전문적인 주의 기반 메시지 함수(attention-based message functions)를 갖습니다; b) 시각적 엣지 특성을 사용합니다; c) 시각적 증거와 라벨 관계를 통합합니다; 그리고 d) 의미 공간에서 전역 추론(global reasoning)을 수행합니다. Charades 데이터셋에서 시간적 행동 위치 결정(temporal action localization) 등 어려운 동영상 이해 작업에 대한 실험 결과, 제안된 방법이 최신 성능(state-of-the-art performance)을 달성함을 보여주었습니다.