2달 전
RTFormer: Transformer를 활용한 실시간 의미 분할을 위한 효율적인 설계
Jian Wang; Chenhui Gou; Qiman Wu; Haocheng Feng; Junyu Han; Errui Ding; Jingdong Wang

초록
최근 트랜스포머 기반 네트워크는 의미 분할에서 뛰어난 결과를 보여주었습니다. 그러나 실시간 의미 분할에서는 트랜스포머의 계산 과정이 시간이 많이 소요되기 때문에 순수 CNN 기반 접근법이 여전히 주도하고 있습니다. 본 연구에서는 실시간 의미 분할을 위한 효율적인 이중 해상도 트랜스포머인 RTFormer를 제안합니다. 이 모델은 성능과 효율성 사이에서 CNN 기반 모델보다 더 나은 균형을 이루며, GPU와 같은 장치에서 높은 추론 효율성을 달성하기 위해 선형 복잡도를 가진 GPU 친화적 어텐션(GPU-Friendly Attention)을 활용하고 멀티-헤드 메커니즘을 제거하였습니다. 또한, 저해상도 분기에서 학습된 고차 지식을 고해상도 분기에 전파하여 전역 컨텍스트 정보를 수집하는 크로스-해상도 어텐션이 더 효율적임을 발견하였습니다. 주요 벤치마크에서 수행한 광범위한 실험들은 제안된 RTFormer의 효과성을 입증하며, Cityscapes, CamVid 및 COCOStuff에서 최고 수준의 성능을 달성하였으며 ADE20K에서도 유망한 결과를 보였습니다. 코드는 PaddleSeg(https://github.com/PaddlePaddle/PaddleSeg)에서 제공됩니다.