17일 전
스파스 모듈러스 오브 익스퍼트를 활용한 비전의 스케일링
Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby

초록
희소하게 게이트되는 전문가의 혼합(Mixture of Experts, MoE) 네트워크는 자연어 처리 분야에서 뛰어난 확장성을 보여주었다. 그러나 컴퓨터 비전 분야에서는 거의 모든 성능이 우수한 네트워크가 '밀집형(dense)'이며, 모든 입력이 모든 파라미터에 의해 처리된다. 본 연구에서는 확장 가능하면서도 가장 큰 밀집형 네트워크와 경쟁 가능한 성능을 갖춘, 비전 전문가의 혼합(Vision MoE, V-MoE)이라는 희소형 비전 트랜스포머를 제안한다. 이미지 인식에 적용했을 때, V-MoE는 최신 기술 수준의 네트워크와 동등한 성능을 달성하면서도 추론 시 계산량을 최대 절반으로 줄일 수 있다. 더불어, 전체 배치에 걸쳐 각 입력의 하위 집합을 우선순위에 따라 처리할 수 있도록 라우팅 알고리즘을 개선한 확장 방안을 제안한다. 이를 통해 V-MoE는 테스트 시 성능과 계산량 사이에서 부드럽게 트레이드오프를 수행할 수 있다. 마지막으로, V-MoE가 비전 모델의 확장 잠재력을 어떻게 활용할 수 있는지 보여주며, 150억 파라미터 규모의 모델을 학습하여 ImageNet에서 90.35%의 정확도를 달성했다.