2ヶ月前
OpenScene: オープンボキャブラリーを用いた3Dシーン理解
Peng, Songyou ; Genova, Kyle ; Jiang, Chiyu Max ; Tagliasacchi, Andrea ; Pollefeys, Marc ; Funkhouser, Thomas

要約
従来の3Dシーン理解手法は、単一タスクの監督学習のためにラベル付き3Dデータセットに依存しています。本研究では、OpenSceneという代替アプローチを提案します。この手法では、モデルが3Dシーンの各点に対してCLIP特徴空間においてテキストと画像ピクセルと共埋め込みされる密集特徴を予測します。このゼロショットアプローチにより、タスク非依存の学習とオープンボキャブラリーのクエリが可能になります。例えば、最先端のゼロショット3Dセマンティックセグメンテーションを行う際には、まず各3D点のCLIP特徴を推論し、その後任意のクラスラベルの埋め込みとの類似性に基づいて分類を行います。より興味深いのは、これまで実現されていなかったオープンボキャブラリーのシーン理解アプリケーションを可能にすることです。例えば、ユーザーが任意のテキストクエリを入力すると、そのクエリに一致するシーン内の部分を示すヒートマップを見ることができます。当アプローチは複雑な3Dシーンにおいてオブジェクト、素材、機能性(affordances)、活動、および部屋タイプを識別するのに効果的であり、すべてラベル付き3Dデータを使用せずに単一モデルで訓練されています。