이중 방향 카메라-LiDAR 융합을 통한 광학 흐름 및 장면 흐름 학습

본 논문에서는 동기화된 2차원(2D) 및 3차원(3D) 데이터로부터 광학 흐름(optical flow)과 장면 흐름(scene flow)을 공동으로 추정하는 문제를 다룬다. 기존의 방법들은 복잡한 파이프라인을 사용하여 공동 작업을 독립적인 단계로 분할하거나, 2D와 3D 정보를 '초기 융합(early-fusion)' 또는 '후기 융합(late-fusion)' 방식으로 통합하는 방식을 채택하였다. 이러한 일관된 접근 방식은 각 모달리티의 특성을 충분히 활용하지 못하거나, 모달 간 보완성의 최대화를 이루지 못하는 딜레마에 직면해 있다. 이를 해결하기 위해, 특정 레이어에서 2D 및 3D 브랜치 간에 다수의 양방향 융합 연결을 갖춘 새로운 엔드 투 엔드 프레임워크를 제안한다. 기존 연구와 달리, 포인트 기반의 3D 브랜치를 도입하여 라이다(point cloud) 특징을 추출함으로써 포인트 클라우드의 기하학적 구조를 유지한다. 밀도 높은 이미지 특징과 희박한 포인트 특징을 융합하기 위해, 양방향 카메라-라이다 융합 모듈(Bidirectional Camera-LiDAR Fusion Module, Bi-CLFM)이라 명명한 학습 가능한 연산자를 제안한다. 이 융합 모듈을 기반으로 두 가지 유형의 양방향 융합 파이프라인을 구현하였으며, 하나는 계층적 거시적에서 미세한 구조로의 아키텍처(pyramidal coarse-to-fine)을 기반으로 한 CamLiPWC, 다른 하나는 반복적 모든 쌍 간 필드 변환(recurrent all-pairs field transforms)을 기반으로 한 CamLiRAFT이다. FlyingThings3D 데이터셋에서, CamLiPWC와 CamLiRAFT 모두 기존 모든 방법들을 능가하며, 가장 우수한 기존 결과 대비 3D 엔드포인트 오차(end-point-error)를 최대 47.9%까지 감소시켰다. 특히, 가장 우수한 성능을 보인 CamLiRAFT 모델은 KITTI Scene Flow 벤치마크에서 오차율 4.26%를 기록하여, 훨씬 적은 파라미터 수로 모든 제출 결과 중 1위를 달성하였다. 또한 본 연구의 방법들은 뛰어난 일반화 성능과 비탄성 운동(non-rigid motion) 처리 능력을 보유하고 있다. 코드는 https://github.com/MCG-NJU/CamLiFlow 에서 공개되어 있다.