2달 전

MovieChat: 밀집 토큰에서 희소 메모리로의 변환을 통한 장편 영상 이해

Enxin Song; Wenhao Chai; Guanhong Wang; Yucheng Zhang; Haoyang Zhou; Feiyang Wu; Haozhe Chi; Xun Guo; Tian Ye; Yanting Zhang; Yan Lu; Jenq-Neng Hwang; Gaoang Wang
MovieChat: 밀집 토큰에서 희소 메모리로의 변환을 통한 장편 영상 이해
초록

최근, 비디오 기반 모델과 대형 언어 모델을 통합하여 비디오 이해 시스템을 구축하는 것이 특정 사전 정의된 시각적 작업의 한계를 극복할 수 있다는 점이 확인되었습니다. 그러나 기존 시스템은 매우 적은 프레임만 포함한 비디오를 처리할 수 있습니다. 장기적인 비디오는 계산 복잡성, 메모리 비용, 그리고 장기 시간적 연결성이 추가적인 도전 과제를 제시합니다. 앳킨슨-시프린 기억 모델(Atkinson-Shiffrin memory model)을 활용하고, 트랜스포머에서 토큰이 기억의 운반체로 사용되도록 하면서 우리 특별히 설계한 기억 메커니즘을 결합하여 이러한 도전 과제를 해결하기 위한 MovieChat을 제안합니다. MovieChat은 장기 비디오 이해 분야에서 최고 수준의 성능을 달성하였으며, 이 방법의 효과성을 검증하기 위해 1천 개의 장기 비디오와 1만 4천 개의 수동 주석이 포함된 MovieChat-1K 벤치마크도 함께 공개되었습니다.