2달 전

End-to-End Spatio-Temporal Action Localisation with Video Transformers 비디오 트랜스포머를 이용한 엔드투엔드 시공간 행동 위치 추정

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab
End-to-End Spatio-Temporal Action Localisation with Video Transformers
비디오 트랜스포머를 이용한 엔드투엔드 시공간 행동 위치 추정
초록

성능이 가장 우수한 시공간 행동 위치 추정 모델들은 외부 인물 제안과 복잡한 외부 메모리 뱅크를 사용합니다. 본 연구에서는 입력 비디오를 직접 처리하고 각 프레임에서의 바운딩 박스 시퀀스와 행동 클래스를 출력하는, 완전히 엔드투엔드(end-to-end)이며 순수 트랜스포머(purely-transformer) 기반의 모델을 제안합니다. 이 유연한 모델은 개별 프레임에 대한 희소 바운딩 박스 감독 또는 전체 튜블릿 주석으로 훈련될 수 있으며, 두 경우 모두 일관된 튜블릿을 예측합니다. 또한, 우리의 엔드투엔드 모델은 제안(proposals) 형태의 추가 전처리나 최대값 억제(non-maximal suppression) 형태의 후처리가 필요하지 않습니다. 우리는 광범위한 아블레이션 실험을 수행하였으며, 희소 키프레임과 전체 튜블릿 주석을 사용하여 네 가지 다른 시공간 행동 위치 추정 벤치마크에서 현존하는 최신 결과들을 크게 발전시켰습니다.

End-to-End Spatio-Temporal Action Localisation with Video Transformers 비디오 트랜스포머를 이용한 엔드투엔드 시공간 행동 위치 추정 | 최신 연구 논문 | HyperAI초신경