17일 전

DeepMAD: 심층 합성곱 신경망을 위한 수학적 아키텍처 설계

Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang
DeepMAD: 심층 합성곱 신경망을 위한 수학적 아키텍처 설계
초록

비전 트랜스포머(Vision Transformer, ViT)의 급속한 발전은 다양한 비전 과제에서 최신 기준 성능을 재정립하며, 전통적인 CNN 기반 모델들을 압도하고 있다. 이에 따라 최근에는 순수 CNN 모델이 철저한 조정을 통해 ViT 모델과 동등한 성능을 달성할 수 있음을 보여주는 강력한 반격 연구들이 등장하고 있다. 비록 이러한 결과는 긍정적이지만, 고성능 CNN 모델을 설계하는 것은 네트워크 설계에 대한 비판적인 사전 지식이 필요하기 때문에 여전히 도전적인 과제이다. 이를 해결하기 위해 본 연구에서는 고성능 CNN 모델을 체계적이고 원리에 기반하여 설계할 수 있는 새로운 프레임워크인 수학적 딥 CNN 설계(Mathematical Architecture Design for Deep CNN, DeepMAD)를 제안한다. DeepMAD에서는 CNN 네트워크를 정보 처리 시스템으로 모델링하며, 구조적 파라미터를 통해 그 표현력과 효율성을 해석적으로 수식화할 수 있다. 이후 이러한 구조적 파라미터를 최적화하기 위한 제약 조건이 있는 수학적 프로그래밍(Mathematical Programming, MP) 문제를 제안한다. 이 MP 문제는 CPU 기반의 표준 MP 솔버를 사용하여 쉽게 해결 가능하며, 메모리 사용량도 매우 작다. 또한 DeepMAD는 순수한 수학적 프레임워크로서, 네트워크 설계 과정에서 GPU나 학습 데이터가 전혀 필요하지 않다. DeepMAD의 우수성은 여러 대규모 컴퓨터 비전 벤치마크 데이터셋에서 검증되었다. 특히 ImageNet-1k에서, 단지 전통적인 컨볼루션 레이어만을 사용함에도 불구하고, Tiny 수준에서는 ConvNeXt 및 Swin 대비 각각 0.7%, 1.5% 높은 Top-1 정확도를 달성하였으며, Small 수준에서는 각각 0.8%, 0.9% 높은 성능을 보였다.

DeepMAD: 심층 합성곱 신경망을 위한 수학적 아키텍처 설계 | 최신 연구 논문 | HyperAI초신경