11일 전

향상된 순간 구별 가능성을 갖춘 시계열 동작 로컬라이제이션

Dingfeng Shi, Qiong Cao, Yujie Zhong, Shan An, Jian Cheng, Haogang Zhu, Dacheng Tao
향상된 순간 구별 가능성을 갖춘 시계열 동작 로컬라이제이션
초록

시간 행동 탐지(Temporal Action Detection, TAD)는 트림되지 않은 영상 내 모든 행동의 경계와 해당 카테고리를 탐지하는 것을 목표로 한다. 영상 내 행동의 경계가 모호한 경우 기존의 방법들은 행동 경계를 정확하게 예측하기 어려운 문제가 발생한다. 이 문제를 해결하기 위해 우리는 단일 단계 프레임워크인 TriDet을 제안한다. 먼저, 경계 주변의 추정된 상대적 확률 분포를 통해 행동 경계를 모델링하는 트라이던트 헤드(Trident-head)를 제안한다. 이후 트랜스포머 기반 방법에서 발생하는 순서 손실 문제(즉, 순간 구별성 저하)를 분석하고, 이 문제를 완화하기 위한 효율적이고 확장 가능한 세분화 인지(Scale-Granularity Perception, SGP) 레이어를 제안한다. 더 나아가 영상 백본에서 순간 구별성의 한계를 극복하기 위해 사전 학습된 대규모 모델의 강력한 표현 능력을 활용하고, TAD 작업에서의 성능을 조사한다. 마지막으로 분류에 필요한 충분한 공간-시간적 맥락을 고려하여, 대규모 모델로부터 풍부한 공간적 맥락을 탐지에 반영할 수 있도록 독립적인 특징 피라미드를 갖춘 분리형 피라미드 네트워크를 설계하였다. 실험 결과, TriDet이 다양한 TAD 데이터셋(계층적(다중 레이블) TAD 데이터셋 포함)에서 뛰어난 성능과 강건성을 보임을 입증하였다.

향상된 순간 구별 가능성을 갖춘 시계열 동작 로컬라이제이션 | 최신 연구 논문 | HyperAI초신경