128프레임으로 확장된 비디오 마스킹 오토인코더

비디오 이해 분야는 최근 자기지도 학습(pre-training) 목표를 활용한 비디오 기반 모델의 발전으로 큰 진전을 보이고 있으며, 특히 마스킹된 자동 인코더(Masked Autoencoders, MAE)가 주목받는 설계 방식으로 자리 잡고 있다. 그러나 기존의 대부분의 연구는 하드웨어 메모리 및 계산 자원의 한계로 인해 비디오 길이에 따라 급격히 증가하는 밀집형 메모리 집약적인 자기주의(self-attention) 디코딩 문제를 고려하여 비교적 짧은 비디오 표현(16~32 프레임)에 집중해왔다. 이러한 과제를 해결하기 위한 자연스러운 전략으로는 디코딩 과정에서 재구성할 토큰들을 하위 샘플링하는 방식(또는 디코더 마스킹)이 존재한다. 본 연구에서는 더 긴 비디오 시퀀스(128 프레임)에서 학습이 가능하도록 하며, 기존의 무작위(random) 및 균일(uniform) 마스킹 전략보다 뛰어난 성능을 달성할 수 있는 효과적인 토큰 우선순위 전략을 제안한다. 본 연구의 핵심은 가장 중요한 토큰을 우선적으로 선택하는 적응형 디코더 마스킹 전략으로, 재구성 목표로는 양자화된 토큰을 사용한다. 이 적응형 전략은 MAGVIT 기반의 강력한 토크나이저를 활용하여 토큰과 그 우선순위를 함께 학습한다. 우리는 철저한 아블레이션 실험을 통해 설계 선택의 타당성을 검증하였으며, 그 결과 짧은 비디오(32 프레임) 모델보다 긴 비디오(128 프레임) 인코더의 성능이 향상됨을 관찰하였다. 제안한 긴 비디오 마스킹 자동 인코더(LVMAE) 전략을 통해, 복잡한 아키텍처나 비디오-텍스트 쌍 레이블링 데이터를 요구하지 않는 단순한 핵심 아키텍처와 비디오 전용 사전 학습을 기반으로, Diving48에서 3.9점, EPIC-Kitchens-100의 동사 분류 과제에서 2.5점의 성능 향상을 기록하며 기존 최고 성능을 초과하였다.