SegNeXt: 의미 있는 분할을 위한 합성곱 주의 설계 재고하기

우리는 의미 분할을 위한 간단한 합성곱 네트워크 구조인 SegNeXt를 제시합니다. 최근 트랜스포머 기반 모델들은 자기 주의 메커니즘이 공간 정보를 인코딩하는 효율성 덕분에 의미 분할 분야에서 주도적인 위치를 차지하고 있습니다. 본 논문에서는 합성곱 주의가 트랜스포머의 자기 주의 메커니즘보다 더 효율적이고 효과적인 방식으로 문맥 정보를 인코딩한다는 것을 보여줍니다. 성공적인 분할 모델이 가진 특성을 재검토함으로써, 우리는 분할 모델의 성능 향상에 중요한 몇 가지 구성 요소를 발견했습니다. 이는 우리에게 저렴한 합성곱 연산을 사용하는 새로운 합성곱 주의 네트워크를 설계하도록 영감을 줍니다. 복잡한 장치 없이, 우리의 SegNeXt는 ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, iSAID와 같은 인기 벤치마크에서 이전 최고 수준 방법론들의 성능을 크게 개선했습니다. 특히 SegNeXt는 EfficientNet-L2 w/ NAS-FPN보다 우수하며, 파라미터 수가 1/10에 불과한 상태에서 Pascal VOC 2012 테스트 리더보드에서 90.6% mIoU(평균 교차 유니온)를 달성했습니다. 평균적으로 SegNeXt는 ADE20K 데이터셋에서 같은 또는 더 적은 계산량으로 최고 수준 방법론들보다 약 2.0% mIoU 개선을 이루었습니다. 코드는 https://github.com/uyzhang/JSeg (Jittor) 및 https://github.com/Visual-Attention-Network/SegNeXt (Pytorch)에서 제공됩니다.