16日前

2D画像の教師情報のみを用いた3Dセマンティックセグメンテーションの学習

Kyle Genova, Xiaoqi Yin, Abhijit Kundu, Caroline Pantofaru, Forrester Cole, Avneesh Sud, Brian Brewington, Brian Shucker, Thomas Funkhouser
2D画像の教師情報のみを用いた3Dセマンティックセグメンテーションの学習
要約

近年の都市マッピングおよび自動運転技術の進展に伴い、LiDARスキャナおよびカラーカメラを搭載した地上平台から収集された3次元(3D)データの量は急増している。しかし、ラベル付けコストが高いため、真の3Dセマンティックセグメンテーションのアノテーションは、データ量および地理的多様性の面で限定的であり、また異なるセンサー間での転移も困難である。一方で、多様なシーンを対象とした、真のセマンティックセグメンテーションアノテーションが付与された大規模な2D画像データセットは容易に入手可能である。本論文では、これらのラベル付き2D画像データセットのみを用いて、3Dセマンティックセグメンテーションモデルの学習を監視する方法を検討する。提案手法は、複数視点融合を用いて2Dセマンティック画像セグメンテーションから得られる仮想ラベル(pseudo-labels)を用いて3Dモデルを学習することである。本アプローチに伴ういくつかの新規課題に取り組む:信頼性の高い仮想ラベルの選定方法、希少オブジェクトカテゴリを含む3Dシーンの適切なサンプリング方法、および学習中に2D画像からの入力特徴量と仮想ラベルを分離する手法。提案するネットワークアーキテクチャである2D3DNetは、5大陸にまたがる20都市で収集されたLiDARデータと画像を用いた新しい都市データセット上で実験を行い、ベースラインと比較して著しく優れた性能(mIoU +6.2~11.4)を達成した。

2D画像の教師情報のみを用いた3Dセマンティックセグメンテーションの学習 | 最新論文 | HyperAI超神経