15일 전

2020년대를 위한 ConvNet

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie
2020년대를 위한 ConvNet
초록

시각 인식 분야의 '황금 20년대'(Roaring 20s)는 비전 트랜스포머(Vision Transformers, ViTs)의 등장과 함께 시작되었으며, 이는 곧 기존의 컨볼루션 네트워크(ConvNets)를 제치고 이미지 분류 분야에서 최고의 모델로 자리 잡았다. 그러나 순수한 ViT는 객체 탐지나 세그멘테이션과 같은 일반적인 컴퓨터 비전 작업에 적용할 때 어려움을 겪는다. 이 문제를 해결하기 위해 계층적 트랜스포머(예: Swin 트랜스포머)가 등장하면서, 여러 컨볼루션 네트워크의 사전 지식(priors)이 재도입되었고, 이로 인해 트랜스포머가 일반적인 비전 백본으로 실용적으로 사용 가능해졌으며 다양한 비전 작업에서 뛰어난 성능을 보였다. 그러나 이러한 하이브리드 접근법의 효과는 여전히 트랜스포머의 본질적 우수성에 기인한 것으로 평가되며, 컨볼루션의 내재된 유도 편향(inductive biases)의 기여는 상대적으로 낮게 평가되고 있다. 본 연구에서는 순수한 컨볼루션 네트워크가 달성할 수 있는 한계를 재검토하고, 설계 공간을 탐색한다. 우리는 표준 ResNet을 비전 트랜스포머의 설계로 점진적으로 '현대화'하면서, 성능 차이에 기여하는 핵심 요소들을 발견하였다. 이러한 탐색의 결과로 탄생한 것이 순수한 컨볼루션 네트워크 기반의 모델군인 ConvNeXt이다. 표준 컨볼루션 네트워크 모듈만을 사용해 구성된 ConvNeXt는 정확도와 확장성 측면에서 트랜스포머와 경쟁할 수 있으며, ImageNet 상위 1위 정확도 87.8%를 달성하고 COCO 객체 탐지와 ADE20K 세그멘테이션에서 Swin 트랜스포머를 능가함과 동시에 표준 컨볼루션 네트워크의 단순성과 효율성을 유지한다.

2020년대를 위한 ConvNet | 최신 연구 논문 | HyperAI초신경