2달 전
OadTR: 온라인 동작 감지에 대한 트랜스포머의 활용
Xiang Wang; Shiwei Zhang; Zhiwu Qing; Yuanjie Shao; Zhengrong Zuo; Changxin Gao; Nong Sang

초록
최근 온라인 행동 감지 방법들은 장기적인 시간 구조를 포착하기 위해 순환 신경망(RNN)을 적용하는 경향이 있다. 그러나 RNN은 병렬 처리가 불가능하고 기울기 소실 문제로 인해 최적화하기 어려운 단점이 있다. 본 논문에서는 이러한 문제들을 해결하기 위해 트랜스포머를 기반으로 하는 새로운 인코더-디코더 프레임워크, OadTR을 제안한다. 태스크 토큰이 부착된 인코더는 과거 관찰들 사이의 관계와 전역 상호작용을 포착하는 데 목표를 두고 있으며, 디코더는 예상되는 미래 클립 표현들을 집계하여 보조 정보를 추출한다. 따라서 OadTR은 과거 정보를 인코딩하고 미래 맥락을 동시에 예측함으로써 현재 행동을 인식할 수 있다. 우리는 제안된 OadTR을 세 가지 도전적인 데이터셋(HDD, TVSeries, THUMOS14)에서 폭넓게 평가하였다. 실험 결과, OadTR은 현재의 RNN 기반 접근법보다 더 빠른 학습 및 추론 속도를 보이며, mAP와 mcAP 측면에서 현존하는 최신 방법들을 크게 능가하는 것으로 나타났다. 코드는 https://github.com/wangxiang1230/OadTR에서 제공된다.