액터-콘텍스트-액터 관계 네트워크를 이용한 시공간 행동 위치 추정

비디오에서 사람을 위치 파악하고 그들의 행동을 인식하는 것은 고차원 비디오 이해를 향한 어려운 과제입니다. 최근에는 엔티티 간의 직접적인 쌍별 관계를 모델링함으로써 많은 발전이 이루어졌습니다. 본 논문에서는 한 걸음 더 나아가, 쌍 간의 직접적인 관계뿐만 아니라 여러 요소를 기반으로 형성된 간접적인 고차원 관계도 고려합니다. 우리는 컨텍스트와의 상호작용을 통해 두 명의 행위자 사이의 관계인 행위자-컨텍스트-행위자 관계(Actor-Context-Actor Relation)를 명시적으로 모델링하기 위해 새로운 접근 방식을 제안합니다. 이를 위해, 고차원 관계 추론 연산자(High-order Relation Reasoning Operator)와 행위자-컨텍스트 특징 저장소(Actor-Context Feature Bank)를 기반으로 하는 행위자-컨텍스트-행위자 관계 네트워크(ACAR-Net)를 설계하였습니다. 이 네트워크는 시공간적 행동 위치 파악을 위한 간접적인 관계 추론을 가능하게 합니다. AVA 및 UCF101-24 데이터셋에 대한 실험 결과, 행위자-컨텍스트-행위자 관계를 모델링하는 것이 우수한 성능을 보임을 확인할 수 있었으며, 주목도 맵(attention map) 시각화를 통해 우리의 모델이 행동 검출을 지원하기 위해 관련 있는 고차원 관계를 찾아낼 수 있음을 추가로 검증하였습니다. 특히, 우리의 방법은 ActivityNet Challenge 2020의 AVA-Kinetics 행동 위치 파악 과제에서 다른 참가작품들을 크게 앞서는 성능(+6.71mAP)으로 1등을 차지했습니다. 훈련 코드와 모델은 https://github.com/Siyu-C/ACAR-Net에서 제공될 예정입니다.