
単眼3次元物体検出は、入力となる単一の2次元画像内に3次元バウンディングボックスを局所化することを目的としている。これは非常に困難な課題であり、特に学習および/または推論時に深度情報、LiDARデータ、あるいは複数フレームといった追加情報を活用できない状況下では未解決の問題として残っている。本論文では、いかなる追加情報も利用せずに、単眼3次元物体検出を実現するシンプルかつ効果的な定式化を提案する。この定式化に基づき、学習段階で補助タスクとして「単眼コンテキスト(Monocular Contexts)」を学習するMonoCon手法を提示する。その核心的なアイデアは、画像内の物体に対するアノテーションされた3次元バウンディングボックスから、学習時に十分な「投影された2次元の監視信号」が得られることにある。具体的には、2次元バウンディングボックスの中心に対して相対的な投影された角点キーポイントやそのオフセットベクトルなど、明確に定義された2次元監視信号が存在し、これらを補助タスクとして活用すべきである。提案手法MonoConは、測度論におけるクレーマー=ウォルドの定理(Cramer-Wold theorem)に着想を得ている。実装面では、補助的な単眼コンテキストの学習効果を検証するため、非常にシンプルなエンドツーエンド設計を採用している。この設計は以下の3つの構成要素から成る:深層ニューラルネットワーク(DNN)に基づく特徴バックボーン、3次元バウンディングボックス予測に必要な基本パラメータを学習する複数の回帰ヘッドブランチ、および補助コンテキストを学習する複数の回帰ヘッドブランチ。学習が完了した後は、推論効率を向上させるために補助コンテキストの回帰ブランチを削除する。実験では、KITTIベンチマーク(車両、歩行者、自転車乗り)においてMonoConの性能を評価した結果、車両カテゴリにおいてリーダーボード上でのすべての先行手法を上回り、歩行者および自転車乗りカテゴリにおいても精度面で競争力のある性能を達成した。シンプルな設計ゆえに、本手法は比較対象の中で最も高速な推論速度(38.7 fps)を実現した。