6ヶ月前

概要

近年、シーンフロー推定を目的としたニューラルネットワークは、KITTIベンチマークを含む自動車用データセットにおいて優れた成果を示している。しかし、高度な剛体性仮定やパラメータ化を用いているにもかかわらず、これらのネットワークは通常、2フレームペアのみを扱うにとどまり、時間的情報を活用することができないという制限がある。本論文では、この課題を解決するために、追加の前向きステレオペアを考慮する新たなマルチフレームアプローチを提案する。この目的のため、2段階のアプローチを採用する。第一に、最近のRAFT-3Dアプローチを基盤として、高度なステレオ推定手法を統合することで、より高性能な2フレームベースラインを構築する。第二に、より重要な点として、RAFT-3Dの特異なモデリング概念を活用し、前向きと後向きのフロー推定値を統合するU-Netアーキテクチャを提案する。これにより、必要に応じて時間的情報を効果的に統合することが可能となる。KITTIベンチマーク上での実験結果は、改善されたベースラインと時間的統合アプローチの利点が互いに補完し合うことを示しており、得られたシーンフローの精度が極めて高いことも明らかになった。具体的には、全体的に2位、特に挑戦性の高い前景オブジェクトについては1位を獲得し、元のRAFT-3D手法を総合的に16％以上上回る性能を達成した。コードは https://github.com/cv-stuttgart/M-FUSE で公開されている。

ソースPDF