
초록
장면 흐름(scene flow) 문제에 대해 다룹니다. 이는 스테레오 또는 RGB-D 비디오 프레임 쌍이 주어졌을 때, 픽셀 단위의 3차원 운동을 추정하는 것을 목표로 합니다. 본 연구에서는 장면 흐름을 위한 새로운 딥 아키텍처인 RAFT-3D를 제안합니다. RAFT-3D는 기존의 광학 흐름(optical flow)을 위한 RAFT 모델을 기반으로 하되, 2차원 운동 대신 픽셀 단위의 SE3(특수 유클리드) 운동을 밀도 있는 필드로 반복적으로 업데이트합니다. RAFT-3D의 핵심 혁신은 강체 운동 임베딩(rigid-motion embeddings)으로, 이는 픽셀들을 강체 객체로 부드럽게 그룹화하는 방식을 나타냅니다. 강체 운동 임베딩의 핵심 요소로는 밀도 있는 SE3(Dense-SE3)라는 미분 가능한 레이어가 있으며, 이는 임베딩의 기하학적 일관성을 강제합니다. 실험 결과, RAFT-3D는 최신 기술 수준의 성능을 달성함을 보여줍니다. FlyingThings3D 데이터셋에서 이뷰 평가 조건 하에서, 기존 최고 성능(0.05 미만의 거리 오차)을 34.3%에서 83.7%로 향상시켰으며, KITTI 데이터셋에서는 객체 인스턴스 레이블을 사용하지 않음에도 불구하고 기존 최고 성능(6.31)을 상회하는 오차 5.77을 기록했습니다. 코드는 https://github.com/princeton-vl/RAFT-3D 에서 공개되어 있습니다.