
시간 행동 탐지(Temporal Action Detection, TAD)는 영상 이해 분야에서 중요한 그러나 도전적인 과제이다. 이 작업은 정제되지 않은 영상 내 모든 행동 인스턴스에 대해 동시에 행동의 의미적 레이블과 시간 간격을 예측하는 것을 목표로 한다. 기존의 대부분의 방법들은 엔드투엔드 학습(end-to-end learning)이 아닌 헤드 전용 학습(head-only learning) 패러다임을 채택하고 있다. 즉, 영상 인코더는 행동 분류를 위해 사전 학습된 후, 인코더 위에 위치한 탐지 헤드만이 TAD를 위해 최적화된다. 엔드투엔드 학습의 효과는 체계적으로 평가되지 않았으며, 엔드투엔드 TAD에서 효율성과 정확성 간의 트레이드오프에 대한 심층적인 연구도 부족하다. 본 논문에서는 엔드투엔드 시간 행동 탐지에 대한 실증적 연구를 제시한다. 엔드투엔드 학습이 헤드 전용 학습에 비해 우수함을 검증하고, 최대 11%의 성능 향상을 관측하였다. 또한, TAD의 성능과 속도에 영향을 미치는 다양한 설계 선택 사항—탐지 헤드, 영상 인코더, 입력 영상의 해상도—에 대한 영향을 탐구하였다. 이러한 연구 결과를 바탕으로, 중간 해상도 기반의 기준 검출기(mid-resolution baseline detector)를 구축하였으며, 이는 엔드투엔드 방법 중 최고 수준의 성능을 달성하면서도 4배 이상 빠른 속도로 작동한다. 본 논문이 엔드투엔드 학습에 대한 안내가 되어 향후 이 분야의 연구를 촉진하기를 기대한다. 코드와 모델은 \url{https://github.com/xlliu7/E2E-TAD}에서 제공된다.