16일 전

PivoTAL: 약한 감독(Temporal Action Localization)를 위한 사전 지도 기반 접근법

{Mei Chen, Mubarak Shah, Sandra Sajeev, Matthew Hall, Ye Yu, Gaurav Mittal, Mamshad Nayeem Rizve}
PivoTAL: 약한 감독(Temporal Action Localization)를 위한 사전 지도 기반 접근법
초록

약한 레이블을 이용한 시계열 동작 탐지(Weakly-supervised Temporal Action Localization, WTAL)는 비트림(untimed) 영상에서 영상 수준의 레이블만을 사용하여 동작을 탐지하는 것을 목표로 한다. 최근 대부분의 연구는 분류 기반 탐지 접근법을 채택하여 각 프레임을 분류한 후, 수작업으로 설계된 후처리 파이프라인을 통해 프레임별 동작 예측을 동작 스플릿(snippet)으로 집계한다. 그러나 이러한 접근법은 동작 경계에 대한 명시적인 이해가 부족하며, 영상 내에서 가장 구분력 있는 부분에만 집중하게 되어 동작 탐지가 완전하지 못한 경향이 있다. 이를 해결하기 위해 본 연구는 ‘탐지 기반 탐지’(localization-by-localization) 관점에서 WTAL을 접근하는 PivoTAL(Prior-driven Supervision for Weakly-supervised Temporal Action Localization)을 제안한다. PivoTAL은 동작 스플릿을 직접 탐지하도록 학습함으로써, 기존의 분류 중심 접근법의 한계를 극복한다. 이를 위해 PivoTAL은 영상 내에 내재된 시공간적 규칙성을 활용하여, 동작 특화 장면 사전(attention-specific scene prior), 동작 스플릿 생성 사전(action snippet generation prior), 그리고 학습 가능한 가우시안 사전(learnable Gaussian prior)을 사용해 탐지 기반 학습을 지도한다. 실험 결과, PivoTAL은 THUMOS-14 및 ActivityNet-v1.3과 같은 기준 데이터셋에서 기존 모든 방법보다 유의미한 성능 향상을 보였으며, 평균 mAP에서 최소 3% 이상의 개선을 달성하였다.

PivoTAL: 약한 감독(Temporal Action Localization)를 위한 사전 지도 기반 접근법 | 최신 연구 논문 | HyperAI초신경