15일 전

실시간 세분화를 위한 확장 컨볼루션의 재고찰

Roland Gao
실시간 세분화를 위한 확장 컨볼루션의 재고찰
초록

시맨틱 세그멘테이션 모델을 설계할 때 시야각(Field-of-view)은 중요한 지표이다. 대규모 시야각을 확보하기 위해 기존의 접근 방식은 일반적으로 해상도를 빠르게 감소시키는 방식을 취한다. 주로 평균 풀링이나 스트라이드 2 컨볼루션을 사용한다. 우리는 백본(Backbone) 전반에 걸쳐 큰 확장률(dilation rate)을 갖는 확장 컨볼루션(Dilated Convolution)을 사용하는 다른 접근 방식을 제안한다. 이를 통해 백본의 시야각을 확장률 조정만으로 쉽게 조절할 수 있으며, 기존 방법들과 경쟁 가능한 성능을 달성함을 보여준다. 확장 컨볼루션을 효과적으로 활용하기 위해 컨볼루션 가중치 사이에 간극이 생기지 않도록 하기 위해 확장률에 대한 간단한 상한선을 제시한다. 또한, 서로 다른 확장률을 갖는 두 개의 병렬 $3\times3$ 컨볼루션을 사용하여 국소적 세부 정보를 유지하는 SE-ResNeXt를 영감으로 한 블록 구조를 설계하였다. 각 블록에 대해 확장률을 수동으로 조정하는 것은 어려울 수 있으므로, 확장률을 최적화하기 위해 기울기 하강법(Gradient Descent)을 활용하는 미분 가능한 신경망 아키텍처 탐색(Differentiable Neural Architecture Search) 방법을 도입하였다. 더불어, 일반적인 대안들보다 국소 정보 복원 능력이 뛰어난 경량 디코더를 제안한다. 제안한 방법의 효과를 입증하기 위해, 본 모델인 RegSeg는 실시간 Cityscapes 및 CamVid 데이터셋에서 경쟁 가능한 성능을 달성하였다. 혼합 정밀도(Mixed Precision)를 사용한 T4 GPU 환경에서, RegSeg는 Cityscapes 테스트 세트에서 37 FPS 속도로 78.3 mIOU를, CamVid 테스트 세트에서 112 FPS 속도로 80.9 mIOU를 기록하였으며, ImageNet 사전 학습 없이도 이 성능을 달성하였다.

실시간 세분화를 위한 확장 컨볼루션의 재고찰 | 최신 연구 논문 | HyperAI초신경