
초록
다중 인물 장면에서 그룹 활동을 인식하기 위해서는 인물 간의 관계를 모델링하는 것이 중요합니다. 본 논문은 딥 모델을 사용하여 효율적으로 인물 간의 차별적인 관계를 학습하는 것을 목표로 합니다. 이를 위해, 우리는 외관과 위치 관계를 동시에 포착할 수 있는 유연하고 효율적인.Actor Relation Graph (ARG, 배우자 관계 그래프)를 제안합니다. 그래프 컨볼루셔널 네트워크(Graph Convolutional Network) 덕분에, ARG의 연결들은 그룹 활동 비디오에서 엔드투엔드 방식으로 자동으로 학습될 수 있으며, ARG에 대한 추론은 표준 행렬 연산을 통해 효율적으로 수행될 수 있습니다. 또한 실제 적용에서는 비디오에서 더 효과적인 모델링을 위해 두 가지 변형 방법을 제안합니다: 공간적으로 국소화된 ARG와 시간적으로 랜덤화된 ARG입니다. 우리는 두 개의 표준 그룹 활동 인식 데이터셋인 배구 데이터셋(Volleyball dataset)과 집단 활동 데이터셋(Collective Activity dataset)에서 광범위한 실험을 수행하였으며, 이들 데이터셋 모두에서 최신 성능을 달성하였습니다. 또한 학습된 배우자 그래프와 관계 특성을 시각화하여, 제안된 ARG가 그룹 활동 인식을 위한 차별적인 관계 정보를 포착할 수 있음을 보여주었습니다.