2달 전
AsymFormer: 모바일 플랫폼 실시간 RGB-D 의미 분할을 위한 비대칭적 크로스모달 표현 학습
Siqi Du; Weixi Wang; Renzhong Guo; Ruisheng Wang; Yibin Tian; Shengjun Tang

초록
실내 장면 이해는 도시 연구에 있어 매우 중요합니다. 실내 환경의 동적인 특성을 고려할 때, 효과적인 의미 분할은 실시간 작동과 높은 정확도를 모두 요구합니다. 이를 해결하기 위해, 우리는 RGB-D 다중 모드 정보를 사용하여 네트워크 복잡도를 크게 증가시키지 않으면서 실시간 의미 분할 정확도를 향상시키는 새로운 네트워크인 AsymFormer를 제안합니다. AsymFormer는 계산 자원 분배를 최적화하여 중복된 매개변수를 줄이는 비대칭 백본을 사용하여 다중 모드 특징을 추출합니다. 비대칭 다중 모드 특징을 융합하기 위해, LAFS(Local Attention-Guided Feature Selection) 모듈이 사용되어 서로 다른 모드 간의 의존성을 활용하여 선택적으로 특징을 융합합니다. 이후, CMA(Cross-Modal Attention-Guided Feature Correlation Embedding) 모듈이 도입되어 더욱 깊게 교차 모달 표현을 추출합니다. AsymFormer는 NYUv2 데이터셋에서 54.1% mIoU와 SUNRGBD 데이터셋에서 49.1% mIoU로 경쟁력 있는 결과를 보여주며, 특히 RTX3090에서 혼합 정밀도 양자화(mixed precision quantization) 구현 후 79 FPS로 65 FPS의 추론 속도를 달성함으로써, AsymFormer가 높은 정확도와 효율성 사이에서 균형을 이룰 수 있음을 입증하였습니다.