
本稿では、同期された2Dと3Dデータから光学フローおよびシーンフローを共同で推定する問題に取り組む。従来の手法は、 jointタスクを独立した段階に分割する複雑なパイプラインを採用するか、2Dと3D情報を「イ早融合(early-fusion)」または「遅融合(late-fusion)」の形で統合するものであった。こうした一括処理型のアプローチは、各モダリティの特徴を十分に活用できないか、あるいはモダリティ間の補完性を最大化できないというジレンマに直面している。この問題に対処するため、我々は新たなエンドツーエンドフレームワークを提案する。このフレームワークは、特定の層において2Dと3Dのブランチ間を複数の双方向融合接続で結ぶ構成を採用している。既存の研究とは異なり、点群の幾何学的構造を保持する点ベースの3Dブランチを用いてLiDAR特徴を抽出する。密な画像特徴と疎な点群特徴を融合するため、双方向カメラ-LiDAR融合モジュール(Bi-CLFM)と呼ばれる学習可能な演算子を提案する。本研究では、ピラミッド型の粗から細へのアーキテクチャに基づく双方向融合パイプライン(CamLiPWC)と、再帰的な全ペアフィールド変換に基づくパイプライン(CamLiRAFT)の2種類を実装した。FlyingThings3Dデータセットにおいて、CamLiPWCおよびCamLiRAFTの両モデルが既存のすべての手法を上回り、最良の既存結果から3Dエンドポイント誤差を最大47.9%まで低減した。特に、最も性能の高いモデルであるCamLiRAFTはKITTI Scene Flowベンチマークにおいて4.26%の誤差を達成し、パラメータ数がはるかに少ないにもかかわらず、すべての提出物の中で1位を獲得した。さらに、本手法は強力な汎化性能を持ち、非剛体運動の処理にも対応可能である。コードは https://github.com/MCG-NJU/CamLiFlow にて公開されている。