
시각적 시공간 표현을 구분하는 것은 영상 이해의 핵심 과제이다. 최근 비전 트랜스포머(Vision Transformers, ViTs)는 자기 주의(self-attention) 기반으로 장기적인 영상 종속성 학습에 뛰어난 성능을 보여주고 있다. 그러나 토큰 간 전역적인 비교가 맹목적인 특성 탓에 국소적 영상 중복 문제를 효과적으로 다루지 못한다는 한계를 지닌다. UniFormer은 트랜스포머 구조 내에서 컨볼루션과 자기 주의를 관계 집계기(relation aggregator)로 통합함으로써 이 문제를 성공적으로 완화하였다. 그러나 이 모델은 영상에 대한 번거롭고 복잡한 사전 학습 과정을 거쳐야 비로소 영상에 대해 미세 조정(finetuning)이 가능하다는 단점이 있으며, 이는 실용적 활용을 제한한다. 반면, 오픈소스로 제공되는 ViTs는 이미 풍부한 이미지 감독 정보를 기반으로 잘 사전 학습되어 있어 즉시 사용이 가능하다. 이러한 관찰을 바탕으로, 사전 학습된 ViTs에 효율적인 UniFormer 설계를 통합함으로써 강력한 영상 네트워크 패밀리를 구축하는 일반적인 프레임워크를 제안한다. 이 패밀리의 이름은 UniFormer 블록의 간결한 스타일을 계승한 'UniFormerV2'로 명명하였다. 그러나 기존의 UniFormer과는 달리, 새로운 국소 및 전역 관계 집계기로 구성되어 있으며, ViTs와 UniFormer의 장점을 원활하게 통합함으로써 정확도와 계산량 사이의 우수한 균형을 달성할 수 있다. 별도의 복잡한 기법 없이도, UniFormerV2는 장면 관련 Kinetics-400/600/700 및 Moments in Time, 시간 관련 Something-Something V1/V2, 비정형 영상 ActivityNet 및 HACS를 포함한 8개의 대표적인 영상 벤치마크에서 최신 기술(SOTA) 수준의 인식 성능을 달성하였다. 특히, 우리 연구팀의 관점에서 가장 먼저 Kinetics-400에서 상위 1위 정확도(90%)를 달성한 모델이다. 관련 모델은 향후 공개될 예정이다.