3ヶ月前

概要

従来の単眼3D検出器は、3Dバウンディングボックスの顕著な非線形回帰を扱うために、属性を分離して予測するパラダイム（デカップリング予測）を採用している。このアプローチでは、幾何学的中心、深度、寸法、回転角を別々のブランチで推定する。このデカップリング戦略は学習プロセスを単純化する一方で、異なる属性間の幾何学的協調制約を本質的に無視しており、結果として幾何学的整合性の事前知識が欠如し、最適な性能に至らない。この問題に対処するため、本研究では空間投影整合（Spatial-Projection Alignment, SPAN）と呼ばれる新規なアプローチを提案する。本手法は以下の2つの鍵となる構成要素で構成される。(i) 空間点整合（Spatial Point Alignment）は、予測された3Dバウンディングボックスと真の値との間に明示的なグローバルな空間的制約を課し、属性のデカップリングによる回帰に起因する空間的ドリフトを是正する。(ii) 3D-2D投影整合（3D-2D Projection Alignment）は、3Dボックスの画像平面上への投影が、対応する2D検出バウンディングボックスと密に一致するように保証し、従来の研究で無視されがちな投影の不整合を軽減する。学習の安定性を確保するため、さらに階層的タスク学習（Hierarchical Task Learning）戦略を導入。この戦略は、3D属性の予測が refining されるに従って、徐々に空間・投影整合を導入することで、初期段階での属性間の誤差伝播を防ぐ。広範な実験により、提案手法が既存の任意の単眼3D検出器に容易に統合可能であり、顕著な性能向上を達成できることを示した。

ソースPDF