GLENet:生成ラベル不確実性推定を用いた3Dオブジェクト検出器の性能向上

3次元バウンディングボックスの真値アノテーションには、遮蔽(occlusion)、信号欠落、あるいは手動アノテーションの誤りによって生じる固有の曖昧性が存在する。この曖昧性は、学習過程において深層3次元オブジェクト検出器を混乱させ、検出精度を低下させる要因となる。しかし、従来の手法はこうした問題を一定程度無視しており、ラベルを決定論的(deterministic)なものとして扱っている。本論文では、ラベルの不確実性を、オブジェクトに対してあり得る複数の妥当なバウンディングボックスの多様性として定式化する。その後、条件付き変分自己符号化器(conditional variational autoencoders)を基盤とする生成フレームワーク、GLENetを提案する。GLENetは潜在変数を用いて、典型的な3次元オブジェクトとその潜在的な真値バウンディングボックスとの1対多の関係をモデル化する。GLENetによって生成されるラベル不確実性は、プラグアンドプレイ型のモジュールとして設計されており、既存の深層3次元検出器に容易に統合可能である。これにより、確率的検出器の構築と、位置推定の不確実性を学習するための教師信号の提供が可能となる。さらに、確率的検出器において、予測された位置不確実性を用いてIoUブランチの学習を指導するための不確実性認識型品質推定アーキテクチャを提案する。提案手法を複数の代表的なベース3次元検出器に組み込み、KITTIおよびWaymoのベンチマークデータセットにおいて、顕著かつ一貫した性能向上を実証した。特に、提案するGLENet-VRは、公開されているすべてのLiDARベース手法と比較して大幅に優れており、挑戦的なKITTIテストセットにおいて単モーダル手法の中でトップランクを達成した。本研究のソースコードおよび事前学習済みモデルは、\url{https://github.com/Eaphan/GLENet}にて公開されている。