3ヶ月前
FocalFormer3D:3Dオブジェクト検出における難易度の高いインスタンスに注目する
Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez

要約
3次元オブジェクト検出における誤検出(False Negatives, FN)—たとえば歩行者、車両、またはその他の障害物の予測を漏らす現象—は、自動運転において危険な状況を引き起こす可能性がある。この問題は致命的であるにもかかわらず、現在の多くの3次元検出手法では十分に研究されていない。本研究では、多段階的にFNを特定し、モデルが困難なインスタンスを効果的に発掘するよう導く汎用的なパイプラインである「Hard Instance Probing(HIP)」を提案する。3次元オブジェクト検出に対して、本手法をFocalFormer3Dとして具体化した。FocalFormer3Dは、困難なオブジェクトを効果的に発掘し、予測の再現率を向上させるシンプルながら効果的な検出器である。特徴として、困難なオブジェクトを発見するための多段階クエリ生成機構と、多数の候補オブジェクトから効率的にオブジェクトを区別するボックスレベルのTransformerデコーダーを備えている。nuScenesおよびWaymoデータセットにおける実験結果から、FocalFormer3Dの優れた性能が検証された。この優位性は、LiDARおよびマルチモーダル設定の両方において、検出とトラッキングの両面で強力な性能を発揮している。特に、nuScenes検出ベンチマークでは70.5 mAP、73.9 NDSを達成し、nuScenesトラッキングベンチマークでは72.1 AMOTAを記録しており、いずれもnuScenes LiDARリーダーボードで1位の成績を収めた。本研究のコードは、\url{https://github.com/NVlabs/FocalFormer3D}にて公開されている。