
초록
최근 3D 세분화 연구들은 각 모달리티(이미지 및 포인트 클라우드)를 별도의 네트워크로 처리한 후 학습된 2D 특징을 3D 점에 투영함으로써 이미지와 포인트 클라우드 간의 상호보완적 상호작용을 활용하는 방식을 제안하고 있다. 대규모 포인트 클라우드와 이미지를 통합하는 과정에서는 점과 픽셀 간의 매핑 구성 및 다중 시점 간의 특징 통합 등 여러 도전 과제가 존재한다. 기존 방법들은 음영 영역을 복원하기 위해 메쉬 재구성 또는 특수 센서를 필요로 하며, 가용한 이미지를 선택하고 통합하는 과정에서 휴리스틱 기법을 사용한다. 반면에, 본 연구는 3D 점의 관측 조건을 활용하여 임의의 위치에서 촬영된 이미지로부터의 특징을 통합할 수 있는 엔드투엔드 학습 가능한 다중 시점 통합 모델을 제안한다. 제안한 방법은 표준 2D 및 3D 네트워크를 간단히 결합할 수 있으며, 색상화, 메쉬화, 진짜 깊이 맵 없이도 색상화된 포인트 클라우드를 기반으로 작동하는 3D 모델과 하이브리드 2D/3D 네트워크 모두를 초월하는 성능을 달성한다. 본 연구는 S3DIS(74.7 mIoU, 6-폴드) 및 KITTI-360(58.3 mIoU)에서 대규모 실내/실외 세분화 작업에 있어 새로운 최고 성능 기록을 수립하였다. 본 연구의 전체 파이프라인은 https://github.com/drprojects/DeepViewAgg 에 공개되어 있으며, 원시 3D 스캔 데이터와 이미지, 카메라 자세 정보만 필요로 한다.