17일 전

VPNeXt -- 평범한 비전 트랜스포머를 위한 밀집 디코딩의 재고찰

Xikai Tang, Ye Huang, Guangqiang Yin, Lixin Duan
VPNeXt -- 평범한 비전 트랜스포머를 위한 밀집 디코딩의 재고찰
초록

우리는 플레인 비전 트랜스포머(Plain Vision Transformer, ViT)를 위한 새로운 간단한 모델인 VPNeXt를 제안한다. 기존의 많은 관련 연구들이 동일한 균질한 패러다임을 공유하는 반면, VPNeXt는 ViT 기반의 밀집 표현에 대한 새로운 시각을 제시한다. 구체적으로, 제안된 VPNeXt는 기존 패러다임에 대해 두 가지 핵심 문제를 해결한다. 첫째, 우수한 표현을 얻기 위해 복잡한 트랜스포머 마스크 디코더 아키텍처를 사용하는 것이 반드시 필요한가? 둘째, 플레인 ViT는 정말로 가상 피라미드 특징(mock pyramid feature)을 활용하여 업샘플링을 수행해야 하는가? 첫 번째 질문에 대해 우리는 트랜스포머 디코더의 효과성에 기여한 잠재적 원인을 분석하고, 효율적으로 유사한 효과를 달성할 수 있는 시각적 컨텍스트 리플레이(Visual Context Replay, VCR)를 도입하였다. 두 번째 질문에 대해 우리는 ViTUp 모듈을 제안하였다. 이 모듈은 이전에 간과되었던 ViT의 실제 피라미드 특징(Real Pyramid Feature)을 완전히 활용하여 기존의 가상 피라미드 특징보다 더 우수한 업샘플링 성능을 달성한다. 이는 플레인 ViT를 위한 세그멘테이션 분야에서 이러한 기능이 처음으로 구현된 사례이다. 관련 모듈에 대한 아블레이션 스터디를 수행하여 각 구성 요소의 효과를 점진적으로 검증하였다. 또한 관련 비교 실험과 시각화를 통해 VPNeXt가 단순하면서도 효과적인 설계로 최신 기준(SOTA, State-of-the-Art) 성능을 달성함을 입증하였다. 더불어, 제안된 VPNeXt는 오랜 기간 유지되어 온 VOC2012 데이터셋의 mIoU 한계(벽/바리어)를 크게 뛰어넘었으며, 2015년 이후 가장 큰 성능 향상 기록을 세우는 성과를 거두었다.