17일 전
다중 시점 트랜스포머를 활용한 영상 인식
Shen Yan, Xuehan Xiong, Anurag Arnab, Zhichao Lu, Mi Zhang, Chen Sun, Cordelia Schmid

초록
비디오 이해는 짧은 세부적인 운동에서부터 오랜 기간에 걸쳐 발생하는 사건에 이르기까지 다양한 시공간 해상도에서의 추론이 필요합니다. 최근 트랜스포머 아키텍처가 상태 최고 수준의 성능을 달성했지만, 이러한 다양한 시공간 해상도를 명시적으로 모델링하지는 못했습니다. 이를 해결하기 위해 우리는 비디오 인식을 위한 다중 시점 트랜스포머(Multiview Transformers for Video Recognition, MTV)를 제안합니다. 본 모델은 입력 비디오의 다양한 시점을 별도의 인코더로 표현하고, 시점 간 정보를 융합하기 위한 횡방향 연결을 포함하고 있습니다. 제안한 모델에 대한 철저한 아블레이션 연구를 수행한 결과, 다양한 모델 크기에서 정확도와 계산 비용 측면에서 단일 시점 대비 일관되게 우수한 성능을 보임을 확인하였습니다. 또한, 6개의 표준 데이터셋에서 최고 수준의 성능을 달성하였으며, 대규모 사전 학습을 통해 더욱 향상된 결과를 얻었습니다. 코드 및 체크포인트는 다음에서 제공됩니다: https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.