3달 전

역행 가능한 열망 네트워크

Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun Li, Xiangyu Zhang
역행 가능한 열망 네트워크
초록

우리는 새로운 신경망 설계 패러다임인 가역 열망(Reversible Column Network, RevCol)을 제안한다. RevCol의 주요 구조는 여러 개의 하위망(하나의 열로 명명됨)을 복제하여 구성하며, 이들 간에는 다수준의 가역 연결을 적용한다. 이러한 아키텍처 설계는 기존 네트워크와는 매우 다른 동작 특성을 부여한다. 전방 전파 과정에서 RevCol 내 특징은 각 열을 통과할수록 점차 분리되어 나가며, 전체 정보는 압축되거나 소실되지 않고 유지된다. 실험 결과에 따르면, CNN 기반의 RevCol 모델은 이미지 분류, 객체 탐지, 세분할 등 다양한 컴퓨터 비전 작업에서 매우 경쟁력 있는 성능을 달성한다. 특히 파라미터 예산이 크고 데이터셋이 방대할 경우에 두드러진 성능을 보인다. 예를 들어, ImageNet-22K에서 사전 훈련한 후 RevCol-XL은 ImageNet-1K에서 88.2%의 정확도를 달성하였으며, 더 많은 사전 훈련 데이터를 활용한 최대 규모 모델인 RevCol-H는 ImageNet-1K에서 90.0%의 정확도, COCO 탐지 minival 세트에서 63.8%의 APbox, ADE20k 세분할에서 61.0%의 mIoU를 기록하였다. 우리 지식상, 이는 순수한(정적) CNN 모델 중에서 COCO 탐지 및 ADE20k 세분할에서 최고의 성능이다. 또한 RevCol은 일반적인 대규모 아키텍처 패턴으로서 트랜스포머 또는 기타 신경망에 도입될 수 있으며, 컴퓨터 비전 및 자연어 처리(NLP) 작업 모두에서 성능 향상이 확인되었다. 코드와 모델은 https://github.com/megvii-research/RevCol 에 공개한다.