COMPOSER: 키포인트 단일 모달리티를 활용한 영상 내 그룹 활동의 구성적 추론

그룹 활동 인식(Group Activity Recognition)은 여러 개의 주체(액터)가 공동으로 수행하는 활동을 탐지하는 작업으로, 주체와 객체 간의 구성적 추론이 필요하다. 본 연구에서는 비디오를 비디오 내 다중 스케일의 의미적 개념을 나타내는 토큰들로 모델링함으로써 이 작업에 접근한다. 우리는 각 스케일에서 토큰에 대해 주목(attention) 기반의 추론을 수행하고, 그룹 활동의 구성적 특성을 학습하는 다중 스케일 기반의 트랜스포머 아키텍처인 COMPOSER를 제안한다. 또한 기존의 연구들은 장면에 대한 편향(scene biases) 문제와 개인정보 및 윤리적 우려를 겪어 왔다. 본 연구에서는 장면 편향을 줄이고 사용자의 개인정보 또는 편향 정보를 포함할 수 있는 세부 시각적 데이터를 수집하는 것을 방지하기 위해 키포인트 모달리티(keypoint modality)만을 사용한다. COMPOSER의 다중 스케일 표현을 개선하기 위해 중간 스케일 표현들을 군집화하고, 각 스케일 간 일관된 군집 할당을 유지한다. 마지막으로, 키포인트 신호에 특화된 보조 예측(auxiliary prediction)과 데이터 증강(data augmentation) 기법을 활용하여 모델 학습을 지원한다. 제안한 모델의 강력한 성능과 해석 가능성은 두 가지 널리 사용되는 데이터셋(Volleyball 및 Collective Activity)에서 입증되었다. COMPOSER는 키포인트 모달리티만을 사용함에도 불구하고 최대 +5.4%의 성능 향상을 달성하였다. 코드는 https://github.com/hongluzhou/composer 에서 공개되어 있다.