HyperAIHyperAI

Command Palette

Search for a command to run...

PLA: 言語駆動のオープンボキャブラリー3Dシーン理解

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

概要

オープンボキャブラリーシーン理解は、アノテーションされたラベル空間を超えた未見のカテゴリを局所化し認識することを目指しています。最近の2次元オープンボキャブラリーパーセプションの画期的な進展は、豊富な語彙概念を持つインターネット規模の画像とテキストのペアデータによって大きく推進されました。しかし、大規模な3次元-テキストペアへのアクセスが困難であるため、この成功を直接3次元シナリオに移行することはできません。これを解決するために、我々は3次元からマルチビュー画像をキャプショニングすることで、事前学習済みのビジョン言語(VL)基盤モデルにエンコードされた知識を抽出する手法を提案します。これにより、3次元と意味豊かなキャプションとの明確な関連付けが可能になります。さらに、視覚-意味表現学習を粗から細かい段階で促進するために、3次元シーンとマルチビュー画像間の幾何学的制約を利用した階層的な3次元-キャプションペアを設計しました。最後に、コントラスティブ学習を用いることで、モデルは3次元とテキストを結びつける言語認識型埋め込みを学習します。我々の方法は、オープンボキャブラリーのセマンティックセグメンテーションおよびインスタンスセグメンテーションにおいてベースライン手法に対して25.8% ~ 44.7% hIoUおよび14.5% ~ 50.4% hAP(_{50})で著しく優れた性能を示すだけでなく、挑戦的なゼロショットドメイン転移タスクでも堅牢な転移性を持つことが確認されています。プロジェクトウェブサイト: https://dingry.github.io/projects/PLA.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています