2달 전
End-to-End Spatio-Temporal Action Localisation with Video Transformers 비디오 트랜스포머를 이용한 엔드투엔드 시공간 행동 위치 추정
Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab

초록
성능이 가장 우수한 시공간 행동 위치 추정 모델들은 외부 인물 제안과 복잡한 외부 메모리 뱅크를 사용합니다. 본 연구에서는 입력 비디오를 직접 처리하고 각 프레임에서의 바운딩 박스 시퀀스와 행동 클래스를 출력하는, 완전히 엔드투엔드(end-to-end)이며 순수 트랜스포머(purely-transformer) 기반의 모델을 제안합니다. 이 유연한 모델은 개별 프레임에 대한 희소 바운딩 박스 감독 또는 전체 튜블릿 주석으로 훈련될 수 있으며, 두 경우 모두 일관된 튜블릿을 예측합니다. 또한, 우리의 엔드투엔드 모델은 제안(proposals) 형태의 추가 전처리나 최대값 억제(non-maximal suppression) 형태의 후처리가 필요하지 않습니다. 우리는 광범위한 아블레이션 실험을 수행하였으며, 희소 키프레임과 전체 튜블릿 주석을 사용하여 네 가지 다른 시공간 행동 위치 추정 벤치마크에서 현존하는 최신 결과들을 크게 발전시켰습니다.