
시간 행동 탐지(Temporal Action Detection, TAD)는 영상 이해 분야에서 핵심적이지만 도전적인 과제이다. 이는 긴 비트리밍 영상 내에서 각 행동 인스턴스의 종류와 시작-종료 프레임을 동시에 탐지하는 것을 목표로 한다. 현재 대부분의 모델들은 TAD 작업을 수행하기 위해 RGB와 광학 흐름(Optical-Flow) 두 가지 스트림을 동시에 활용한다. 그러나 이로 인해 원본 RGB 프레임을 추가적인 계산과 시간 소모를 통해 광학 흐름 프레임으로 수동으로 변환해야 하며, 이는 실시간 처리를 달성하는 데 있어 큰 장벽이 된다. 현재 많은 모델들이 제안 영역을 생성하는 과정을 포함하는 이단계 전략을 채택하고 있으나, 이는 추론 속도를 저하시키고 제안 생성 파라미터의 복잡한 튜닝을 요구한다. 본 연구에서는 RGB 스트림만을 사용하는 단일 단계, 앵커 기반 없는 시간적 위치 추정 방법을 제안한다. 이 방법은 새로운 뉴턴 역학 기반-MLP(Newtonian Mechanics-MLP) 아키텍처를 도입하여, 기존 최첨단 모델들과 비교해 유사한 정확도를 달성하면서도 추론 속도에서 크게 우수함을 입증하였다. 본 논문에서 제시된 전형적인 추론 속도는 THUMOS14 데이터셋 기준으로 초당 4.44개의 영상에 달한다. 실제 응용 상황에서는 광학 흐름 변환 과정이 필요 없기 때문에 더욱 빠른 추론 속도가 가능하다. 또한 본 연구는 MLP가 TAD와 같은 후행 작업에서 큰 잠재력을 지니고 있음을 입증하였다. 소스 코드는 다음 링크에서 공개되어 있다: https://github.com/BonedDeng/TadML