
要約
自動運転分野において、単眼3D検出は単一のRGB画像から物体の3D特性(深度、寸法、向き)を推定する重要な課題である。これまでの研究では、3D特性を学習するために特徴量を直感的な方法で使用してきたが、不適切な特徴量が悪影響を与える可能性については考慮されていなかった。本論文では、適合したサンプルのみを訓練に使用すべきであるというサンプル選択手法を導入する。サンプルを選択するために、Gumbel-Softmaxと相対距離に基づくサンプル分割器を用いた学習可能なサンプル選択(Learnable Sample Selection, LSS)モジュールを提案する。LSSモジュールはウォームアップ戦略のもとで動作し、訓練の安定性向上に寄与する。さらに、3D特性のサンプル選択に特化したLSSモジュールがオブジェクトレベルの特徴量に依存することから、画像生成原理に準拠しつつ曖昧さを導入しないデータ拡張手法MixUp3Dを開発した。LSSモジュールとMixUp3Dは直交する手法であり、独立してまたは組み合わせて利用できる。十分な実験により、これらの手法を組み合わせることで相乗効果が得られ、個々の応用を超えた改善がもたらされることを示している。LSSモジュールとMixUp3Dを利用することで追加データなしで提案手法MonoLSSはKITTI 3D物体検出ベンチマークにおいて車両、自転車乗り、歩行者のすべての3つのカテゴリーで1位となり、WaymoデータセットおよびKITTI-nuScenesクロスデータセット評価でも競争力のある結果を得ている。コードは補足資料に含まれており、関連する学術研究や産業研究を促進するために公開される予定である。