11일 전

M-FUSE: 장면 흐름 추정을 위한 다중 프레임 융합

Lukas Mehl, Azin Jahedi, Jenny Schmalfuss, Andrés Bruhn
M-FUSE: 장면 흐름 추정을 위한 다중 프레임 융합
초록

최근 신경망을 활용한 장면 흐름 추정 기법은 KITTI 벤치마크와 같은 자동차용 데이터셋에서 놀라운 성능을 보여주고 있다. 그러나 고도로 발전된 강성 가정과 매개변수화 기법을 사용하고 있음에도 불구하고, 이러한 네트워크는 일반적으로 두 프레임 쌍에 한정되어 있어 시간적 정보를 효과적으로 활용하지 못하는 한계를 지닌다. 본 논문에서는 이러한 문제를 해결하기 위해 추가적인 이전 스테레오 쌍을 고려하는 새로운 다중 프레임 접근법을 제안한다. 이를 위해 두 단계로 접근한다. 먼저, 최근의 RAFT-3D 기법을 기반으로 하여 고급 스테레오 방법을 통합함으로써 개선된 두 프레임 기준 모델을 구축한다. 두 번째로, 더욱 중요한 것은 RAFT-3D의 특수한 모델링 개념을 활용하여 전방 및 후방 흐름 추정치를 융합하는 U-Net 아키텍처를 제안함으로써, 필요에 따라 시간적 정보를 효과적으로 통합할 수 있도록 한다. KITTI 벤치마크에서의 실험 결과는 개선된 기준 모델과 시간적 융합 기법의 장점이 서로 보완됨을 보여주며, 계산된 장면 흐름의 정확도가 매우 높음을 입증한다. 구체적으로 본 연구 방법은 전체 순위에서 2위를 기록하였으며, 더욱 도전적인 전경 객체에 대해서는 1위를 차지하여 원래의 RAFT-3D 방법보다 총합으로 16% 이상 뛰어난 성능을 보였다. 코드는 https://github.com/cv-stuttgart/M-FUSE 에서 공개되어 있다.

M-FUSE: 장면 흐름 추정을 위한 다중 프레임 융합 | 최신 연구 논문 | HyperAI초신경