
초록
최근까지 최고 성능을 자랑하는 시간적 행동 탐지기들은 RGB 프레임과 광학 흐름(optical flow)을 포함하는 이중 스트림 입력 기반으로 구성되어 있다. 비록 RGB 프레임과 광학 흐름을 결합함으로써 성능이 크게 향상되지만, 광학 흐름은 수작업으로 설계된 표현 방식으로, 계산 부담이 크다는 단점 외에도, 이중 스트림 방법이 광학 흐름과 함께 종단 간(end-to-end) 공동 학습되지 않는다는 점에서 방법론적으로 만족스럽지 못하다. 본 논문에서는 고정밀 시간적 행동 탐지에서 광학 흐름이 불필요하다고 주장하며, 광학 흐름을 제거했을 때 성능 저하를 방지하기 위한 핵심 해결책으로 이미지 레벨 데이터 증강(Image-Level Data Augmentation, ILDA)을 제안한다. ILDA의 효과를 평가하기 위해 단일 RGB 스트림 기반의 간단하면서도 효율적인 단계적(one-stage) 시간적 행동 탐지기인 DaoTAD를 설계하였다. 실험 결과, ILDA를 사용하여 학습된 DaoTAD는 기존의 모든 최고 성능 이중 스트림 탐지기들과 비교해 유사한 정확도를 달성하면서도 기존 방법들에 비해 인퍼런스 속도에서 큰 우위를 보였으며, GeForce GTX 1080 Ti에서 인퍼런스 속도는 놀라운 6,668 fps에 달한다. 코드는 \url{https://github.com/Media-Smart/vedatad}에서 공개되어 있다.