11日前
V-DETR:3次元物体検出のための頂点相対位置符号化を備えたDETR
Yichao Shen, Zigang Geng, Yuhui Yuan, Yutong Lin, Ze Liu, Chunyu Wang, Han Hu, Nanning Zheng, Baining Guo

要約
点群に対する高効率な3次元物体検出器を、DETRフレームワークを用いて提案する。これまでの先行研究は、訓練データのスケールが限られているため、正確なインダクティブバイアスを学習できず、結果として最適でない性能に留まっている。特に、クエリがターゲット物体から遠く離れた点に注目する傾向があり、物体検出における局所性(locality)の原則を破っている。この課題を解決するため、我々は新たな3次元頂点相対位置符号化(3DV-RPE)手法を導入する。この手法は、各デコーダ層においてクエリが予測する3次元ボックスに対して、各点の相対位置に基づいて位置符号化を計算することで、モデルが物体周辺の点に注目するよう明確な情報を提供し、局所性の原則に則った検出を実現する。さらに、タスクの本質的理解に基づき、データ正規化を含む検出パイプライン全体を体系的に改善した。提案手法は、挑戦的なScanNetV2ベンチマークにおいて優れた結果を示し、従来の3DETRに比べて$\rm{AP}{25}$/$\rm{AP}{50}$が65.0\%/47.0\%から77.8\%/66.0\%へと大幅に向上した。さらに、本手法はScanNetV2およびSUN RGB-Dデータセットにおいて、それぞれ新たな記録を樹立した。コードは、http://github.com/yichaoshen-MS/V-DETRにて公開予定である。