17일 전

UniFormer: 효율적인 공간-시간 표현 학습을 위한 유니파이드 트랜스포머

{Yu Qiao, Hongsheng Li, Yu Liu, Guanglu Song, Gao Peng, Yali Wang, Kunchang Li}
UniFormer: 효율적인 공간-시간 표현 학습을 위한 유니파이드 트랜스포머
초록

고차원 영상에서 풍부하고 다중 척도의 공간-시간 의미를 학습하는 것은 프레임 간의 큰 국소적 중복성과 복잡한 전역적 종속성으로 인해 도전적인 과제이다. 최근 이 분야의 발전은 주로 3D 컨볼루션 신경망과 비전 트랜스포머에 의해 주도되어 왔다. 3D 컨볼루션은 작은 3D 이웃 영역에서 국소적 맥락을 효율적으로 통합함으로써 국소적 중복성을 억제할 수 있으나, 수용 영역이 제한적이기 때문에 전역적 종속성을 포착하는 능력이 부족하다. 반면, 비전 트랜스포머는 자기주의(self-attention) 메커니즘을 통해 장거리 종속성을 효과적으로 포착할 수 있지만, 각 레이어에서 모든 토큰 간의 맹목적인 유사도 비교 방식으로 인해 국소적 중복성을 줄이는 데 한계가 있다. 이러한 관찰을 바탕으로, 우리는 간결한 트랜스포머 구조 내에서 3D 컨볼루션과 공간-시간 자기주의의 장점을 원활하게 통합하는 새로운 유니티 트랜스포머(Unity Transformer, UniFormer)를 제안한다. 이는 계산량과 정확도 사이에 우수한 균형을 달성한다. 기존 트랜스포머와 달리, 본 연구의 관계 집약기(relational aggregator)는 얕은 레이어에서 국소적 토큰 유사도를, 깊은 레이어에서 전역적 토큰 유사도를 각각 학습함으로써 공간-시간 중복성과 종속성을 동시에 해결한다. 우리는 Kinetics-400, Kinetics-600, Something-Something V1&V2와 같은 대표적인 영상 벤치마크에서 광범위한 실험을 수행하였다. 단순히 ImageNet-1K에서 사전 학습된 모델만을 사용하여 UniFormer은 Kinetics-400과 Kinetics-600에서 각각 82.9%, 84.8%의 top-1 정확도를 달성하였으며, 기존 최첨단 방법들에 비해 10배 적은 GFLOPs를 요구한다. 또한 Something-Something V1과 V2에서는 각각 60.8%, 71.4%의 top-1 정확도로 새로운 최고 성능을 기록하였다.

UniFormer: 효율적인 공간-시간 표현 학습을 위한 유니파이드 트랜스포머 | 최신 연구 논문 | HyperAI초신경