2달 전

DFormer: RGBD 표현 학습을 재고하는 의미 분할 방법

Bowen Yin; Xuying Zhang; Zhongyu Li; Li Liu; Ming-Ming Cheng; Qibin Hou
DFormer: RGBD 표현 학습을 재고하는 의미 분할 방법
초록

우리는 DFormer를 소개합니다. 이는 RGB-D 분할 작업을 위한 전이 가능한 표현을 학습하기 위한 새로운 RGB-D 사전 훈련 프레임워크입니다. DFormer는 두 가지 주요 혁신을 포함하고 있습니다: 1) 이전 연구들이 RGB 사전 훈련된 백본을 사용하여 RGB-D 정보를 인코딩하는 것과 달리, 우리는 ImageNet-1K의 이미지-깊이 쌍을 사용하여 백본을 사전 훈련합니다. 따라서 DFormer는 RGB-D 표현을 인코딩할 수 있는 능력을 갖추게 되었습니다; 2) DFormer는 RGB와 깊이 정보를 모두 인코딩하기 위해 설계된 새로운 빌딩 블록으로 구성된 일련의 RGB-D 블록들을 포함하고 있습니다. DFormer는 기존 방법에서 널리 존재하지만 해결되지 않았던, 깊이 맵의 3D 기하학적 관계에 대한 불일치된 인코딩 문제를 피합니다. 우리는 가벼운 디코더 헤드를 사용하여 사전 훈련된 DFormer를 두 가지 유명한 RGB-D 작업, 즉 RGB-D 의미 분할과 RGB-D 주요 객체 검출에 미세 조정(finetune)하였습니다. 실험 결과, 우리의 DFormer는 두 개의 RGB-D 의미 분할 데이터셋과 다섯 개의 RGB-D 주요 객체 검출 데이터셋에서 현재 최고 방법보다 절반 미만의 계산 비용으로 새로운 최고 성능(SOTA)을 달성했습니다. 우리의 코드는 다음 링크에서 확인 가능합니다: https://github.com/VCIP-RGBD/DFormer.

DFormer: RGBD 표현 학습을 재고하는 의미 분할 방법 | 최신 연구 논문 | HyperAI초신경