퍼서버: 반복적 어텐션을 통한 일반적 인지

생물학적 시스템은 시각, 청각, 촉각, 운동감각 등과 같은 다양한 모달리티로부터 오는 고차원 입력을 동시에 처리함으로써 세계를 인지한다. 반면에, 딥러닝에서 사용되는 인지 모델은 일반적으로 개별 모달리티를 위한 것으로 설계되어 있으며, 거의 모든 기존의 비전 모델이 활용하는 국소적 격자 구조와 같은 도메인 특화 가정에 의존하는 경우가 많다. 이러한 사전 지식은 유용한 유도 편향(inductive bias)을 제공하지만, 동시에 모델을 특정 모달리티에 고정시키는 결과를 초래한다. 본 논문에서는 Transformer를 기반으로 하되 입력 간의 관계에 대해 거의 구조적 가정을 하지 않는 '퍼세이버(Perceiver)' 모델을 제안한다. 이 모델은 컨볼루션 네트워크(ConvNets)와 마찬가지로 수십만 개의 입력에까지 확장 가능하며, 비대칭적 주의 메커니즘(asymmetric attention mechanism)을 활용하여 입력을 반복적으로 압축하여 밀도 높은 잠재적 봉쇄(latent bottleneck)로 변환함으로써 매우 큰 입력 처리가 가능하다. 제안된 아키텍처가 이미지, 포인트 클라우드, 오디오, 비디오, 비디오+오디오 등 다양한 모달리티에서 분류 작업에 대해 강력한 전용 모델들과 경쟁하거나 그들을 능가함을 보여준다. 퍼세이버는 2D 컨볼루션 없이도 5만 개의 픽셀에 직접 주의를 기울여 ImageNet에서 ResNet-50 및 ViT와 비슷한 성능을 달성한다. 또한 AudioSet에서도 모든 모달리티에서 경쟁력 있는 성능을 보였다.