2달 전
DuLa-Net: 단일 RGB 파노라마에서 방 레이아웃을 추정하기 위한 이중 투영 네트워크
Yang, Shang-Ta ; Wang, Fu-En ; Peng, Chi-Han ; Wonka, Peter ; Sun, Min ; Chu, Hung-Kuo

초록
우리는 단일 RGB 파노라마에서 맨해튼 월드 3D 방 구조를 예측하기 위한 딥 러닝 프레임워크인 DuLa-Net을 제시합니다. 더 나은 예측 정확도를 달성하기 위해, 우리의 방법은 파노라마의 두 가지 투영, 즉 등각 파노라마 뷰(equirectangular panorama-view)와 원근 천장 뷰(perspective ceiling-view)를 동시에 활용합니다. 각 뷰에는 방 구조에 대한 서로 다른 단서가 포함되어 있습니다. 우리의 네트워크 아키텍처는 이러한 두 가지 뷰를 분석하기 위한 두 개의 인코더-디코더 분기를 포함하고 있습니다. 또한, 이 두 분기를 연결하는 새로운 특징 융합 구조를 제안하며, 이를 통해 2D 평면도와 구조 높이를 공동으로 학습하여 예측합니다. 더 복잡한 방 구조를 학습하기 위해, 우리는 다양한 코너 수를 가진 맨해튼 월드 방 구조의 파노라마가 포함된 Realtor360 데이터셋을 소개합니다. 실험 결과는 특히 비입체형(non-cuboid) 방 구조에서 예측 정확도와 성능 면에서 최근의 최신 연구보다 우수함을 보여줍니다.