3D ポイントクラウドにおける対話型オブジェクトセグメンテーション

本研究では、3Dインスタンスセグメンテーションのための対話型アプローチを提案します。このアプローチでは、ユーザーが深層学習モデルと反復的に協力し、3Dポイントクラウド内のオブジェクトを直接セグメント化することができます。現在の3Dインスタンスセグメンテーション手法は一般的に完全教師ありで訓練され、大量の高コストな教師データが必要であり、訓練中に見られなかったクラスへの汎化性能が低いという問題があります。人間のインタラクションを使用して3Dセグメンテーションマスクを得ようとした研究は少ないですが、既存の手法は2D画像領域でのユーザーフィードバックに依存しています。その結果、ユーザーは2D画像と3D表現との間で頻繁に切り替えなければならず、複数の入力モダリティを組み合わせるためのカスタムアーキテクチャが使用されています。したがって、既存の標準的な3Dモデルとの統合は容易ではありません。本研究の核心的なアイデアは、ユーザーが対象とする3Dオブジェクト(または背景)にクリックすることで直接3Dポイントクラウドと対話し、オープンワールド設定においてシーンを対話的にセグメント化することです。具体的には、当手法は任意のターゲットドメインからの訓練データを必要とせず、適切な訓練セットがない新しい環境にも適応できます。システムはユーザーフィードバックに基づいて継続的にオブジェクトセグメンテーションを調整し、最小限の人間労力(各オブジェクトに対する少数のクリック)で正確な密集した3Dセグメンテーションマスクを達成します。大規模かつ多様な3Dデータセットの効率的なラベリングに加えて、ユーザーが直接3D環境と対話する当アプローチはAR/VRやヒューマンロボットインタラクションにおける新たな応用可能性を開きます。