8ヶ月前

マルチモーダル

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Songyou Peng Kyle Genova Chiyu “Max” Jiang Andrea Tagliasacchi Marc Pollefeys Thomas Funkhouser

概要

従来の3Dシーン理解手法は、単一タスクの監督学習のためにラベル付き3Dデータセットに依存しています。本研究では、OpenSceneという代替アプローチを提案します。この手法では、モデルが3Dシーンの各点に対してCLIP特徴空間においてテキストと画像ピクセルと共埋め込みされる密集特徴を予測します。このゼロショットアプローチにより、タスク非依存の学習とオープンボキャブラリーのクエリが可能になります。例えば、最先端のゼロショット3Dセマンティックセグメンテーションを行う際には、まず各3D点のCLIP特徴を推論し、その後任意のクラスラベルの埋め込みとの類似性に基づいて分類を行います。より興味深いのは、これまで実現されていなかったオープンボキャブラリーのシーン理解アプリケーションを可能にすることです。例えば、ユーザーが任意のテキストクエリを入力すると、そのクエリに一致するシーン内の部分を示すヒートマップを見ることができます。当アプローチは複雑な3Dシーンにおいてオブジェクト、素材、機能性（affordances）、活動、および部屋タイプを識別するのに効果的であり、すべてラベル付き3Dデータを使用せずに単一モデルで訓練されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Songyou Peng Kyle Genova Chiyu “Max” Jiang Andrea Tagliasacchi Marc Pollefeys Thomas Funkhouser

概要

従来の3Dシーン理解手法は、単一タスクの監督学習のためにラベル付き3Dデータセットに依存しています。本研究では、OpenSceneという代替アプローチを提案します。この手法では、モデルが3Dシーンの各点に対してCLIP特徴空間においてテキストと画像ピクセルと共埋め込みされる密集特徴を予測します。このゼロショットアプローチにより、タスク非依存の学習とオープンボキャブラリーのクエリが可能になります。例えば、最先端のゼロショット3Dセマンティックセグメンテーションを行う際には、まず各3D点のCLIP特徴を推論し、その後任意のクラスラベルの埋め込みとの類似性に基づいて分類を行います。より興味深いのは、これまで実現されていなかったオープンボキャブラリーのシーン理解アプリケーションを可能にすることです。例えば、ユーザーが任意のテキストクエリを入力すると、そのクエリに一致するシーン内の部分を示すヒートマップを見ることができます。当アプローチは複雑な3Dシーンにおいてオブジェクト、素材、機能性（affordances）、活動、および部屋タイプを識別するのに効果的であり、すべてラベル付き3Dデータを使用せずに単一モデルで訓練されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています