11일 전
시제적 동작 탐지를 위한 제안 관계 네트워크
Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang

초록
이 기술 보고서는 ActivityNet Challenge 2021에서의 시간적 행동 탐지(Temporal Action Detection) 과제에 대한 우리 팀의 해결 방안을 제시한다. 이 과제의 목적은 긴 트림되지 않은 영상에서 관심 있는 행동들을 위치 및 식별하는 것이다. 이 과제의 핵심 과제는 행동의 시간적 지속 시간이 극도로 다양하며, 타겟 행동이 관련 없는 다양한 활동들로 구성된 배경 속에 잠재되어 있다는 점에 있다. 본 연구에서 제안하는 솔루션은 BMN(Boundary-Matching Network) 기반으로 구성되며, 주로 세 가지 단계로 이루어진다. 첫째, SlowFast, CSN, ViViT를 활용한 행동 분류 및 특징 인코딩; 둘째, 후보 구간 생성. 우리는 제안한 Proposal Relation Network(PRN)을 BMN에 통합함으로써 고품질의 후보 구간을 생성할 수 있도록 개선하였다; 셋째, 행동 탐지. 각 후보 구간에 대해 분류 결과를 할당하여 탐지 결과를 계산한다. 마지막으로, 다양한 설정 하에서의 결과를 앙상블하여 테스트 세트에서 평균 mAP 기준 44.7%의 성능을 달성하였으며, 이는 ActivityNet 2020 대회 우승 성능 대비 1.9% 향상된 결과이다.