17일 전

UniRepLKNet: 음성, 비디오, 포인트 클라우드, 시계열 및 이미지 인식을 위한 유니버설 인지 대커널 컨브넷

Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan
UniRepLKNet: 음성, 비디오, 포인트 클라우드, 시계열 및 이미지 인식을 위한 유니버설 인지 대커널 컨브넷
초록

최근 대규모 커널을 가진 합성곱 신경망(ConvNets)에 대한 연구 관심이 급증하고 있으나, 여전히 해결되지 않은 핵심적인 두 가지 문제들이 추가적인 연구를 필요로 한다. 첫째, 기존의 대규모 커널 ConvNet 아키텍처는 대부분 전통적인 ConvNet 또는 트랜스포머의 설계 원칙을 따르고 있으며, 대규모 커널 ConvNet 전용의 아키텍처 설계는 여전히 충분히 다뤄지지 않았다. 둘째, 트랜스포머가 다양한 모달리티에서 지배적인 위치를 차지하고 있음에도 불구하고, ConvNet이 시각 외 영역에서도 강력한 보편적 인지 능력을 갖추고 있는지 여부는 여전히 탐구가 필요한 주제이다. 본 논문에서는 두 가지 측면에서 기여를 한다. 첫째, 대규모 커널 ConvNet 설계를 위한 네 가지 아키텍처 지침을 제안한다. 이 지침의 핵심은 소규모 커널과 구별되는 대규모 커널의 본질적 특성을 활용하는 것—즉, 깊이를 더하지 않고도 넓은 영역을 볼 수 있다는 점이다. 이러한 지침을 따르며 제안한 대규모 커널 ConvNet은 이미지 인식에서 최고 수준의 성능을 보이며, ImageNet 정확도 88.0%, ADE20K mIoU 55.6%, COCO 박스 AP 56.4%를 달성하여 최근의 강력한 경쟁 모델들보다 뛰어난 성능과 더 빠른 속도를 입증하였다. 둘째, 대규모 커널이 원래 익숙하지 않았던 영역에서 ConvNet의 뛰어난 성능을 발휘하게 하는 핵심 요소임을 발견하였다. 특정 모달리티에 맞춘 사전 처리 기법을 활용할 경우, 아키텍처에 특화된 설계 없이도 제안된 모델이 시계열 예측 및 오디오 인식 과제에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 본 연구의 모든 코드와 모델은 GitHub 및 Hugging Face에서 공개되어 있다.

UniRepLKNet: 음성, 비디오, 포인트 클라우드, 시계열 및 이미지 인식을 위한 유니버설 인지 대커널 컨브넷 | 최신 연구 논문 | HyperAI초신경