9일 전
MeMViT: 효율적인 장기 영상 인식을 위한 메모리 증강 다중스케일 비전 트랜스포머
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

초록
오늘날의 영상 인식 시스템은 단일 이미지나 짧은 클립을 정확히 분석할 수 있지만, 장기간에 걸친 시간적 흐름을 연결하고 추론하는 능력은 아직 부족하다. 기존 대부분의 영상 아키텍처는 계산 또는 메모리 한계에 도달하기 전에 5초 미만의 영상만 처리할 수 있다.본 논문에서는 이러한 도전 과제를 극복하기 위한 새로운 전략을 제안한다. 기존 방법들이 대부분 더 많은 프레임을 동시에 처리하려는 시도를 하는 반면, 우리는 영상을 온라인 방식으로 처리하면서 각 반복 단계에서 '메모리'를 캐시하는 방식을 제안한다. 이를 통해 모델은 단지 미미한 추가 비용으로 장기적인 맥락을 참조할 수 있게 되며, 시간에 따른 지속적인 이해가 가능해진다. 이 아이디어를 바탕으로 우리는 MeMViT(메모리 증강 다중 스케일 비전 트랜스포머)를 개발했다. MeMViT는 기존 모델보다 시간적 지원 범위를 30배 더 길게 확보하면서도 계산량은 단 4.5%만 증가한다. 반면 기존 전통적 방법은 동일한 성능을 달성하기 위해 3,000% 이상의 추가 계산량이 필요하다. 다양한 설정에서 MeMViT가 제공하는 확장된 시간적 지원은 인식 정확도에 일관되게 큰 향상을 가져왔다. MeMViT는 AVA, EPIC-Kitchens-100 행동 분류, 행동 예측 데이터셋에서 최신 기준(SOTA) 성능을 달성했다. 코드 및 모델은 https://github.com/facebookresearch/memvit 에 공개되어 있다.