16일 전
3D 스켈레톤 포인트 클라우드에서의 인간 상호작용 학습을 통한 비디오 폭력 인식
{Qingyao Wu, Yukun Su, Jinhui Zhu, Guosheng Lin}

초록
이 논문은 사람의 골격 점(3D skeleton points)으로부터 추출한 인간 골격 시퀀스를 바탕으로 관련된 사람 간의 맥락적 관계를 학습함으로써 폭력 행동을 인식하는 새로운 방법을 제안한다. 기존의 연구들과 달리, 본 논문은 동영상에서 추출한 인간 골격 시퀀스로부터 3D 골격 점 클라우드를 먼저 구성한 후, 이러한 3D 골격 점 클라우드 위에서 상호작용 학습을 수행한다. 골격 점 간의 상호작용을 모델링하기 위해 새로운 Skeleton Points Interaction Learning (SPIL) 모듈을 제안한다. 구체적으로, 지역적 영역 내 점들 간에 특정 가중치 분포 전략을 구성함으로써, SPIL 모듈은 점들의 특성과 공간-시간적 위치 정보를 기반으로 가장 관련성이 높은 부분에 집중하는 것을 목표로 한다. 다양한 유형의 관계 정보를 포착하기 위해, 독립적인 헤드들로부터 추출된 서로 다른 특징을 통합할 수 있도록 멀티헤드 기반의 메커니즘이 설계되었다. 실험 결과, 제안하는 모델이 기존의 네트워크보다 우수한 성능을 보이며, 비디오 폭력 데이터셋에서 새로운 최고 성능(SOTA)을 달성함을 확인하였다.