EVEREST: 효율적인 마스크 비디오 오토인코더로 공간-시간 토큰 제거

마스크드 비디오 오토인코더(Masked Video Autoencoder, MVA) 접근법들은 이전의 비디오 표현 학습 방법들을 크게 능가함으로써 그 잠재력을 입증해왔습니다. 그러나 무작위 마스킹 전략으로 인해 정보가 부족한 토큰/프레임을 예측하는 데 과도한 계산과 메모리가 낭비되는 문제가 있습니다(예: 128개의 NVIDIA A100 GPU를 사용하는 16개 이상의 노드). 이 문제를 해결하기 위해, 우리는 비디오 내 패치들 사이의 불균등한 정보 밀도를 활용하여 EVEREST라는 효율적인 MVA 접근법을 제안합니다. 이 방법은 사전 학습 및 미세 조정 과정에서 움직임 특징이 풍부한 토큰을 찾아내고 정보가 부족한 토큰은 버리는 방식입니다. 또한, 우리는 최소한의 중복성을 유지하면서 모델이 정보가 풍부하고 인과 관계가 있는 프레임에 집중할 수 있도록 하는 정보 집약적 프레임 선택 전략을 제시합니다. 우리의 방법은 MVA의 계산 및 메모리 요구량을大幅减少, 8개의 GPU를 장착한 단일 머신에서도 사전 학습과 미세 조정이 가능하도록 하며, 여러 벤치마크와 비큐레이션 Ego4D 데이터셋에서 기존의 계산 및 메모리 집약적인 기준 모델들과 유사한 성능을 달성하였습니다. 우리는 본 연구가 비디오 이해에 대한 추가 연구의 장벽을 낮추는 데 기여하기를 바랍니다.注:在最后一句中,“大幅减少”被误译为“大幅减少”,正确的翻译应该是“대폭 감소시킵니다”。以下是修正后的版本:마스크드 비디오 오토인코더(Masked Video Autoencoder, MVA) 접근법들은 이전의 비디오 표현 학습 방법들을 크게 능가함으로써 그 잠재력을 입증해왔습니다. 그러나 무작위 마스킹 전략으로 인해 정보가 부족한 토큰/프레임을 예측하는 데 과도한 계산과 메모리가 낭비되는 문제가 있습니다(예: 128개의 NVIDIA A100 GPU를 사용하는 16개 이상의 노드). 이 문제를 해결하기 위해, 우리는 비디오 내 패치들 사이의 불균등한 정보 밀도를 활용하여 EVEREST라는 효율적인 MVA 접근법을 제안합니다. 이 방법은 사전 학습 및 미세 조정 과정에서 움직임 특징이 풍부한 토큰을 찾아내고 정보가 부족한 토큰은 버리는 방식입니다. 또한, 우리는 최소한의 중복성을 유지하면서 모델이 정보가 풍부하고 인과 관계가 있는 프레임에 집중할 수 있도록 하는 정보 집약적 프레임 선택 전략을 제시합니다. 우리의 방법은 MVA의 계산 및 메모리 요구량을 대폭 감소시킵니다. 8개의 GPU를 장착한 단일 머신에서도 사전 학습과 미세 조정이 가능하도록 하며, 여러 벤치마크와 비큐레이션 Ego4D 데이터셋에서 기존의 계산 및 메모리 집약적인 기준 모델들과 유사한 성능을 달성하였습니다. 우리는 본 연구가 비디오 이해에 대한 추가 연구의 장벽을 낮추는 데 기여하기를 바랍니다.