2달 전

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning 비디오 ViT 재고찰: 이미지와 비디오 학습을 위한 희소 비디오 튜브

Piergiovanni, AJ ; Kuo, Weicheng ; Angelova, Anelia
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning
비디오 ViT 재고찰: 이미지와 비디오 학습을 위한 희소 비디오 튜브
초록

우리는 이미지와 비디오 입력을 모두 원활하게 처리할 수 있는 효율적인 비디오 모델로 ViT 인코더를 변환하는 간단한 접근법을 제시합니다. 입력을 희소 샘플링함으로써, 이 모델은 두 가지 입력 모두에서 학습과 추론을 수행할 수 있습니다. 이 모델은 쉽게 확장 가능하며, 전체 미세 조정(full finetuning) 없이 대규모事前训练된 ViT(大規模事前训练된 ViT)에 적응할 수 있습니다. 본 모델은 최고의 성능(SOTA) 결과를 달성하였으며, 코드는 오픈 소스로 제공될 예정입니다.注:在上述翻译中,“대규모事前训练된 ViT” 和 “최고의 성능(SOTA)” 后面括号内的原文是为了确保信息完整。但为了使译文更加自然,我将“大規模事前训练”调整为“대규모 사전 학습”,并将“SOTA”解释为“최고의 성능”。以下是修正后的版本:우리는 이미지와 비디오 입력을 모두 원활하게 처리할 수 있는 효율적인 비디오 모델로 ViT 인코더를 변환하는 간단한 접근법을 제시합니다. 입력을 희소 샘플링함으로써, 이 모델은 두 가지 입력 모두에서 학습과 추론을 수행할 수 있습니다. 이 모델은 쉽게 확장 가능하며, 전체 미세 조정(full finetuning) 없이 대규모 사전 학습된 ViT에 적응할 수 있습니다. 본 모델은 최고의 성능(SOTA) 결과를 달성하였으며, 코드는 오픈 소스로 제공될 예정입니다.