2달 전

RTFormer: Transformer를 활용한 실시간 의미 분할을 위한 효율적인 설계

Jian Wang; Chenhui Gou; Qiman Wu; Haocheng Feng; Junyu Han; Errui Ding; Jingdong Wang
RTFormer: Transformer를 활용한 실시간 의미 분할을 위한 효율적인 설계
초록

최근 트랜스포머 기반 네트워크는 의미 분할에서 뛰어난 결과를 보여주었습니다. 그러나 실시간 의미 분할에서는 트랜스포머의 계산 과정이 시간이 많이 소요되기 때문에 순수 CNN 기반 접근법이 여전히 주도하고 있습니다. 본 연구에서는 실시간 의미 분할을 위한 효율적인 이중 해상도 트랜스포머인 RTFormer를 제안합니다. 이 모델은 성능과 효율성 사이에서 CNN 기반 모델보다 더 나은 균형을 이루며, GPU와 같은 장치에서 높은 추론 효율성을 달성하기 위해 선형 복잡도를 가진 GPU 친화적 어텐션(GPU-Friendly Attention)을 활용하고 멀티-헤드 메커니즘을 제거하였습니다. 또한, 저해상도 분기에서 학습된 고차 지식을 고해상도 분기에 전파하여 전역 컨텍스트 정보를 수집하는 크로스-해상도 어텐션이 더 효율적임을 발견하였습니다. 주요 벤치마크에서 수행한 광범위한 실험들은 제안된 RTFormer의 효과성을 입증하며, Cityscapes, CamVid 및 COCOStuff에서 최고 수준의 성능을 달성하였으며 ADE20K에서도 유망한 결과를 보였습니다. 코드는 PaddleSeg(https://github.com/PaddlePaddle/PaddleSeg)에서 제공됩니다.

RTFormer: Transformer를 활용한 실시간 의미 분할을 위한 효율적인 설계 | 최신 연구 논문 | HyperAI초신경