17일 전
TokenLearner: 이미지와 영상에 있어 8개의 학습 가능한 토큰은 무엇을 할 수 있는가?
Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova

초록
본 논문에서는 이미지 및 비디오 이해 작업에 모두 적용 가능한, 적은 수의 적응형으로 학습된 토큰에 기반한 새로운 시각적 표현 학습 방법을 제안한다. 기존의 수작업으로 설계된 분할 전략에 의존하여 시각적 토큰을 생성하고, 주의(attention) 처리를 위해 밀집하게 샘플링된 많은 패치를 처리하는 방식과 달리, 본 연구는 시각 데이터 내에서 중요한 토큰을 자동으로 탐색하는 방식을 채택한다. 이를 통해 적은 수의 중요한 시각적 토큰을 효율적이고 효과적으로 탐지할 수 있으며, 이미지의 공간적 정보나 비디오의 장시간에 걸친 쌍별 주의 구조를 모델링할 수 있다. 실험 결과, 이미지 및 비디오 인식 과제에서 여러 도전적인 벤치마크에서 우수한 성능을 입증하였다. 특히, 본 방법에서 사용하는 토큰이 적응형이라는 점을 고려할 때, 계산량을 크게 줄이면서도 경쟁력 있는 성능을 달성하였다. ImageNet에서 최신 기술들에 비해 유사한 성능을 달성하면서도 계산 효율성이 뛰어나다. 또한 Kinetics-400, Kinetics-600, Charades, AViD 등 다양한 비디오 데이터셋에서도 본 방법의 효과성을 확인하였다. 코드는 다음과 같은 주소에서 확인할 수 있다: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner