2달 전

점 특성 강화 마스크 오토인코더를 통한 컴팩트 3D 표현 연구

Zha, Yaohua ; Ji, Huizhen ; Li, Jinmin ; Li, Rongsheng ; Dai, Tao ; Chen, Bin ; Wang, Zhi ; Xia, Shu-Tao
점 특성 강화 마스크 오토인코더를 통한 컴팩트 3D 표현 연구
초록

3D 표현 학습은 포인트 클라우드를 위한 마스크 오토인코더(MAE) 기반 사전 훈련 방법에서 중요한 역할을 합니다. 이는 단일 모달 및 크로스 모달 기반 MAE를 포함합니다. 특히, 크로스 모달 MAE 방법은 다른 모달 지식의 보조를 통해 강력한 3D 표현을 학습하지만, 종종 중대한 계산 부담과 대량의 크로스 모달 데이터 쌍에 대한 의존성을 가지고 있으며, 이러한 데이터 쌍은 종종 사용할 수 없어 실용적인 응용에 제약을 주곤 합니다. 반면, 입력으로 오직 포인트 클라우드만 사용하는 단일 모달 방법은 그 간단함과 효율성 때문에 실제 응용에서 선호됩니다. 그러나 이러한 방법들은 전역 랜덤 마스크 입력으로 인해 제한된 3D 표현을 쉽게 겪게 됩니다. 이를 해결하기 위해, 우리는 간단하면서도 효과적인 포인트 특징 강화 마스크 오토인코더(Point-FEMAE)를 제안합니다. 이 방법은 잠재적 의미 특징을 포착하기 위해 전역 분기와 국소 분기를 주로 구성합니다. 구체적으로, 더 밀집된 특징을 학습하기 위해 공유 매개변수 트랜스포머 인코더가 도입되어 전역 랜덤 및 국소 블록 마스크 전략으로 얻은 전역 및 국소 언마스킹 패치에서 포인트 특징을 추출합니다. 이후 특정 디코더를 통해 재구성됩니다. 또한, 국소 분기의 특징을 더욱 강화하기 위해 큰 규모에서 세부적인 국소 문맥을 인식하는 국소 강화 모듈(국소 패치 컨볼루션)이 제안되었습니다. 우리의 방법은 크로스 모달 대안에 비해 사전 훈련 효율성이 크게 향상되었으며, 광범위한 다운스트림 실험 결과가 최신 기술의 우수성을 입증하고 있습니다. 특히 세 가지 버전의 ScanObjectNN에서 베이스라인(Point-MAE)보다 각각 5.16%, 5.00%, 5.04% 개선된 성능을 보였습니다. 코드는 https://github.com/zyh16143998882/AAAI24-PointFEMAE 에서 확인할 수 있습니다.