2달 전
Faster R-CNN 아키텍처를 시계열 행동 위치 추정을 위해 재고하다
Yu-Wei Chao; Sudheendra Vijayanarasimhan; Bryan Seybold; David A. Ross; Jia Deng; Rahul Sukthankar

초록
우리는 비디오에서 시간적 행동 위치 결정을 위한 개선된 접근 방식인 TAL-Net을 제안합니다. 이 접근 방식은 Faster R-CNN 객체 검출 프레임워크에서 영감을 받아 설계되었습니다. TAL-Net은 기존 접근 방식의 세 가지 주요 단점을 해결합니다: (1) 다중 스케일 아키텍처를 사용하여 행동 지속 시간의 극단적인 변화를 수용할 수 있도록 수신 필드 정렬을 개선했습니다; (2) 제안 생성과 행동 분류 모두에서 적절히 수신 필드를 확장하여 행동의 시간적 맥락을 더 잘 활용합니다; 그리고 (3) 다스트림 특성 융합을 명시적으로 고려하고, 동작 후에 모션을 융합하는 것이 중요하다는 것을 입증했습니다. THUMOS'14 검출 벤치마크에서 행동 제안과 위치 결정 모두에 있어 최고 성능을 달성했으며, ActivityNet 챌린지에서도 경쟁력 있는 성능을 보였습니다.