시공간 포즈 토큰화와 트랜스포머를 통한 인간 중심 비디오 이상 탐지

비디오 이상 감지(VAD)는 컴퓨터 비전 분야에서 중요한 도전 과제로, 이는 이상 사건의 예측 불가능성과 드문 발생 빈도, 그리고 이러한 사건이 발생하는 다양하고 동적인 환경 때문입니다. 인간 중심 VAD는 이 분야 내의 특화된 영역으로, 인간 행동의 변동성, 데이터에 잠재된 편향성, 그리고 인간 피실험자와 관련된 중대한 프라이버시 문제 등 추가적인 복잡성을 가지고 있습니다. 이러한 문제들은 모델의 강건성과 일반화 능력을 개발하는 것을 더욱 어렵게 만듭니다. 이러한 도전 과제를 해결하기 위해 최근 연구에서는 포즈 기반 VAD에 집중하고 있으며, 이 방법은 프라이버시 문제를 완화하고, 외관 편향을 줄이며, 배경 간섭을 최소화하는 고급 특징인 인간 포즈를 활용합니다.본 논문에서는 SPARTA라는 새로운 트랜스포머 기반 아키텍처를 소개합니다. SPARTA는 시간 경과에 따른 인간 운동의 풍부한 표현을 생성하는 혁신적인 공간-시간적 포즈 및 상대적 포즈(ST-PRP) 토큰화 방법을 제안합니다. 이 접근 방식은 트랜스포머의 주목 메커니즘이 공간적 패턴과 시간적 패턴을 동시에 포착하도록 하며, 한 가지 측면만 집중하지 않습니다. 상대적 포즈의 추가는 정상적인 인간 운동에서 미묘하게 벗어난 부분을 더욱 강조합니다. 아키텍처의 핵심인 새로운 통합 인코더-트윈 디코더(UETD) 트랜스포머는 비디오 데이터에서 이상 행동을 감지하는 능력을 크게 향상시킵니다.여러 벤치마크 데이터셋에 대한 광범위한 평가 결과를 통해 SPARTA가 기존 방법들을 일관되게 능가하며, 포즈 기반 VAD 분야에서 새로운 최고 수준(SOTA) 성능을 달성함을 입증하였습니다.