
要約
安全な自動運転を実現するためには、正確で信頼性の高い3D物体検出が不可欠です。最近の進展にもかかわらず、ステレオベースの手法とLiDARベースの手法の性能差は依然として大きく、その解消が求められています。特に、ステレオベースの3D物体検出方法において、前景にある物体に関連するピクセルの正確な深度推定が重要です。さらに、ステレオベースの方法では深度推定精度に大きなばらつきがあり、これが物体検出パイプラインで十分に考慮されていないことが問題となっています。これらの2つの課題を解決するために、我々はCG-Stereo(Confidence-Guided Stereo)という新しいアプローチを提案します。この手法では、深度推定時に前景と背景のピクセルに対して異なるデコーダーを使用し、また深度推定ネットワークからの信頼度推定を3D物体検出器におけるソフトアテンション機構として活用します。我々のアプローチはKITTIベンチマークにおいて、すべての最先端のステレオベースの3D検出器を上回る性能を示しています。