
초록
비디오 스트리밍의 폭발적인 성장은 높은 정확도와 낮은 계산 비용으로 비디오 이해를 수행하는 데 어려움을 초래하고 있습니다. 기존의 2D CNN은 계산 비용이 저렴하지만 시간적 관계를 포착할 수 없습니다. 반면 3D CNN 기반 방법은 좋은 성능을 달성할 수 있지만 계산량이 많아 배포 비용이 많이 듭니다. 본 논문에서는 높은 효율성과 성능을 모두 갖춘 일반적이고 효과적인 시간 이동 모듈(Temporal Shift Module, TSM)을 제안합니다. 특히, TSM은 3D CNN의 성능을 달성하면서 2D CNN의 복잡성을 유지할 수 있습니다. TSM은 채널 일부를 시간 차원에 따라 이동시키므로 인접 프레임 간 정보 교환이 용이해집니다. 이 모듈은 2D CNN에 삽입하여 계산량과 파라미터가 전혀 증가하지 않으면서 시간적 모델링을 수행할 수 있습니다. 또한 우리는 TSM을 온라인 환경으로 확장하여 실시간 저지연 온라인 비디오 인식 및 비디오 객체 검출이 가능하도록 하였습니다. TSM는 정확하고 효율적이며, 출판 당시 Somethin-Something 리더보드에서 1위를 차지했습니다. Jetson Nano와 Galaxy Note8에서 온라인 비디오 인식에 대한 지연 시간이 각각 13ms와 35ms로 매우 낮습니다. 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/mit-han-lab/temporal-shift-module.