3ヶ月前

Mix3D:3Dシーンにおける文脈外データ拡張

Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann
Mix3D:3Dシーンにおける文脈外データ拡張
要約

本稿では、大規模3Dシーンのセグメンテーションを目的としたデータ拡張技術「Mix3D」を提案する。シーンの文脈はオブジェクトの意味的理解に有効であるため、近年の研究では入力3Dシーンのグローバルな文脈を完全に捉えることができる、大容量かつ広い受容野を持つモデルの開発が重視されている。しかし、強力な文脈事前知識(contextual prior)は、例えば道路を横断する歩行者を車と誤認するといった悪影響をもたらす可能性がある。本研究では、グローバルなシーン文脈とローカルな幾何構造のバランスの重要性に着目し、訓練データに含まれる文脈事前知識を超えて一般化する能力を向上させることを目的とする。具体的には、2つの拡張済みシーンを組み合わせることで新たな訓練サンプルを生成する「ミキシング」手法を提案する。この手法により、オブジェクトインスタンスが従来とは異なる文脈外環境に間接的に配置されることとなり、モデルが単にシーン文脈に依存するのではなく、ローカル構造からも意味情報を推論するよう促される。本研究では、グローバル文脈とローカル構造の役割、およびシーンのミキシング効果について詳細な分析を実施した。実験の結果、Mix3Dを用いて訓練されたモデルは、屋内データセット(ScanNet、S3DIS)および屋外データセット(SemanticKITTI)において顕著な性能向上を示した。Mix3Dは既存のあらゆる手法と容易に組み合わせ可能であり、Mix3Dで訓練されたMinkowskiNetはScanNetのテストベンチマークにおいて78.1 mIoUという値で、従来の最先端手法を大きく上回った。コードは以下のURLから公開されている:https://nekrasov.dev/mix3d/