17일 전
양방향 투영 네트워크를 통한 크로스 차원 장면 이해
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong

초록
2D 이미지 표현은 정규 격자 구조를 가지며 효율적으로 처리할 수 있는 반면, 3D 포인트 클라우드는 순서가 없고 3D 공간에 산재해 있다. 이러한 두 시각 영역 내부의 정보는 서로 보완적이며, 예를 들어 2D 이미지는 세밀한 텍스처 정보를 제공하지만, 3D 포인트 클라우드는 풍부한 기하학적 정보를 담고 있다. 그러나 현재 대부분의 시각 인식 시스템은 이들을 별도로 처리한다. 본 논문에서는 엔드 투 엔드 방식으로 2D와 3D를 통합적으로 추론할 수 있는 \emph{양방향 투영 네트워크 (BPNet)}을 제안한다. BPNet은 대칭적인 아키텍처를 가진 2D 및 3D 하위 네트워크로 구성되며, 본 연구에서 제안한 \emph{양방향 투영 모듈 (BPM)}을 통해 연결된다. BPM을 통해 2D와 3D 정보는 다양한 아키텍처 수준에서 상호 보완적으로 상호작용할 수 있으며, 이로써 두 시각 영역의 장점을 통합하여 더 나은 장면 인식 성능을 달성할 수 있다. 광범위한 정량적 및 정성적 실험 평가 결과에 따르면, 2D와 3D 시각 영역에 대한 통합적 추론은 2D와 3D 모두의 장면 이해 성능을 동시에 향상시킬 수 있음을 입증하였다. 제안한 \emph{BPNet}은 2D 및 3D 세그멘테이션 모두에서 ScanNetV2 벤치마크에서 최고 성능을 기록하였다. 코드는 \url{https://github.com/wbhu/BPNet}에서 공개되어 있다.