16日前

言語に基づく屋内3Dセマンティックセグメンテーション:現実世界における挑戦

David Rozenberszki, Or Litany, Angela Dai
言語に基づく屋内3Dセマンティックセグメンテーション:現実世界における挑戦
要約

深層ニューラルネットワークを用いた3Dセマンティックセグメンテーションにおける最近の進展は、利用可能なデータセット上で顕著な性能向上を達成しており、急速な進歩が見られている。しかし、現在の3Dセマンティックセグメンテーションのベンチマークでは、カテゴリ数が非常に限られている。例えば、ScanNetやSemanticKITTIでは30未満のカテゴリしか含まれていない。これは、現実環境の多様性を十分に反映できるものではない(例:セマンティック画像理解では数百から数千のクラスが扱われる)。そこで本研究では、ScanNetデータを拡張した新たなベンチマークを提案し、200のクラスカテゴリを含む大規模な語彙を用いた3Dセマンティックセグメンテーションの研究を進める。これは従来の研究と比べて1桁以上多いクラス数であり、自然なクラス不均衡も顕著に増大する。このような状況は、既存の3Dセマンティックセグメンテーション手法にとって大きな課題となる。このような環境下でより堅牢な3D特徴を学習するため、本研究では言語駆動型事前学習手法を提案する。この手法は、学習データが限られているクラスに対しても、学習された3D特徴が事前学習済みのテキスト埋め込み(text embeddings)に近くなるように促す。広範な実験の結果、本手法は提案したベンチマーク上で、従来の最先端3D事前学習手法を常に上回ることが示された(相対的なmIoUで+9%)。特に、ラベル付きデータがわずか5%の限られたデータ環境下でも、相対的なmIoUで+25%の性能向上が達成された。

言語に基づく屋内3Dセマンティックセグメンテーション:現実世界における挑戦 | 最新論文 | HyperAI超神経