11日前
単眼3Dオブジェクト検出のための深さ条件付き動的メッセージ伝播
Li Wang, Liang Du, Xiaoqing Ye, Yanwei Fu, Guodong Guo, Xiangyang Xue, Jianfeng Feng, Li Zhang

要約
本論文の目的は、単眼3次元物体検出の課題を解決するため、文脈および深度に敏感な特徴表現を学習することである。本研究では以下の貢献を行う:(i) 複雑な疑似LiDAR(pseudo-LiDAR)アプローチに依存するのではなく、多スケールの深度情報を画像の文脈と効果的に統合するため、深度条件付き動的メッセージ伝播(Depth-conditioned Dynamic Message Propagation, DDMP)ネットワークを提案する;(ii) これは、まず画像の文脈から文脈に適応したノードを自動的にサンプリングし、その後、情報伝播に用いるハイブリッドな深度依存フィルタ重みおよび類似度行列を動的に予測することで実現される;(iii) 中心に敏感な深度符号化(Center-aware Depth Encoding, CDE)タスクを導入することで、不正確な深度事前知識の問題を効果的に緩和した;(iv) 提案手法の有効性を包括的に実証し、KITTIベンチマークデータセットにおいて単眼ベースのアプローチの中で最先端の性能を達成した。特に、2020年11月16日(提出日)に実施された非常に競争の激しいKITTI単眼3次元物体検出トラックで1位を獲得した。コードおよびモデルは、\url{https://github.com/fudan-zvg/DDMP} にて公開されている。