2ヶ月前
単眼3D物体検出のための幾何学的不確実性投影ネットワーク
Lu, Yan ; Ma, Xinzhu ; Yang, Lei ; Zhang, Tianzhu ; Liu, Yating ; Chu, Qi ; Yan, Junjie ; Ouyang, Wanli

要約
単眼3D物体検出におけるジオメトリ投影は、強力な深度推定手法である。この手法は高さに依存して深度を推定し、深層モデルに数学的な事前知識を導入する。しかし、投影プロセスには誤差増幅問題も含まれており、推定された高さの誤差が大幅に出力される深度に反映され、増幅される。この特性により、制御不能な深度推論が生じ、さらに学習効率にも悪影響を与える。本論文では、推論段階と学習段階の両方で誤差増幅問題に対処するためのジオメトリ不確実性投影ネットワーク(GUP Net)を提案する。具体的には、GUPモジュールを提案し、推論された深度のジオメトリガイドによる不確実性を求めることで、各深度に対して高い信頼度を提供するとともに、深度学習にも貢献する。さらに、学習段階においては、誤差増幅によって引き起こされる不安定性を軽減するために階層的タスク学習戦略を提案する。この学習アルゴリズムは提唱した指標によって各タスクの学習状況を監視し、その前タスクの状況に基づいて異なるタスクに対して適切な損失重みを動的に割り当てる。これにより、各タスクはその前タスクが十分に学習された時点で初めて学習が始まり、これによって訓練プロセスの安定性と効率が大幅に向上する。広範囲な実験結果から提案手法の有効性が示されており、全体的なモデルは既存の手法よりもより信頼性のある物体深度を推論できることを確認している。また、KITTIベンチマークにおいて自動車と歩行者のカテゴリで3.74%および4.7% AP40で最新の画像ベースの単眼3D検出器を超える性能を達成している。