
要約
深度推定と3D物体検出はシーン理解において重要な役割を果たしますが、画像撮影時に3D情報が失われるため、単一画像からの処理は依然として困難です。最近の深層ニューラルネットワークを使用したモデルは、単眼深度推定の性能を向上させていますが、絶対深度の予測や標準データセット外での汎化にはまだ課題があります。本稿では、深層光学(Deep Optics)というパラダイム、つまり光学系と画像処理のエンドツーエンド設計を単眼深度推定問題に導入し、符号化されたピントボケを追加的な深度手がかりとして利用することを提案します。NYU Depth v2やKITTIなど3つのデータセットを使用して、複数の光学符号化戦略とエンドツーエンド最適化スキームによる深度推定の評価を行いました。その結果、最適化された自由形状レンズ設計が最も優れた結果をもたらすことが判明しましたが、単板レンズからの色収差も大幅な性能向上につながることが確認されました。物理的なプロトタイプを作成し、実世界の結果において色収差が深度推定に寄与することを検証しました。さらに、KITTIデータセット上で物体検出ネットワークを学習させ、深度推定に最適化されたレンズ設計が3D物体検出性能の向上にも貢献することを示しました。注:「深層光学(Deep Optics)」、「自由形状レンズ(freeform lens)」、「単板レンズ(singlet lens)」などの専門用語は括弧内に原文を記載しています。