2달 전

vid-TLDR: 경량 비디오 트랜스포머를 위한 무학습 토큰 병합

Joonmyung Choi; Sanghyeok Lee; Jaewon Chu; Minhyuk Choi; Hyunwoo J. Kim
vid-TLDR: 경량 비디오 트랜스포머를 위한 무학습 토큰 병합
초록

비디오 트랜스포머는 우수한 표현력과 유연성으로 인해 다양한 비디오 다운스트림 작업에 널리 사용되는 해결책이 되었습니다. 그러나 이러한 비디오 트랜스포머는 전체 비디오 프레임에 걸쳐 대량의 토큰으로 인한 중대한 계산 비용을 겪고 있어, 이는 모델 학습의 주요 장벽이 되어왔습니다. 또한, 주요 내용과 관련이 없는 패치들, 예를 들어 배경은 모델의 일반화 성능을 저하시키는 원인이 되었습니다. 이러한 문제들을 해결하기 위해, 우리는 추가적인 학습 없이 배경 토큰을 병합하여 비디오 트랜스포머의 효율성을 높이는 경량화된 비디오 트랜스포머(vid-TLDR)를 위한 학습 자유 토큰 병합 방법을 제안합니다. vid-TLDR에 대해, 우리는 주의 맵(attention map)만을 사용하여 비디오에서 중요한 영역만을 포착하는 새로운 접근법을 소개합니다. 또한, 배경 토큰을 제거하고 객체 점수를 강화하는 주목도 인식 토큰 병합 전략(saliency-aware token merging strategy)을 도입합니다. 우리의 실험 결과는 vid-TLDR가 기존 모델보다 경쟁력 있는 성능을 유지하면서도 비디오 트랜스포머의 계산 복잡성을 크게 완화시킨다는 것을 보여줍니다. 코드는 https://github.com/mlvlab/vid-TLDR에서 제공됩니다.

vid-TLDR: 경량 비디오 트랜스포머를 위한 무학습 토큰 병합 | 최신 연구 논문 | HyperAI초신경