8ヶ月前

概要

オープンボキャブラリーシーン理解は、アノテーションされたラベル空間を超えた未見のカテゴリを局所化し認識することを目指しています。最近の2次元オープンボキャブラリーパーセプションの画期的な進展は、豊富な語彙概念を持つインターネット規模の画像とテキストのペアデータによって大きく推進されました。しかし、大規模な3次元-テキストペアへのアクセスが困難であるため、この成功を直接3次元シナリオに移行することはできません。これを解決するために、我々は3次元からマルチビュー画像をキャプショニングすることで、事前学習済みのビジョン言語（VL）基盤モデルにエンコードされた知識を抽出する手法を提案します。これにより、3次元と意味豊かなキャプションとの明確な関連付けが可能になります。さらに、視覚-意味表現学習を粗から細かい段階で促進するために、3次元シーンとマルチビュー画像間の幾何学的制約を利用した階層的な3次元-キャプションペアを設計しました。最後に、コントラスティブ学習を用いることで、モデルは3次元とテキストを結びつける言語認識型埋め込みを学習します。我々の方法は、オープンボキャブラリーのセマンティックセグメンテーションおよびインスタンスセグメンテーションにおいてベースライン手法に対して25.8% ～ 44.7% hIoUおよび14.5% ～ 50.4% hAP(_{50})で著しく優れた性能を示すだけでなく、挑戦的なゼロショットドメイン転移タスクでも堅牢な転移性を持つことが確認されています。プロジェクトウェブサイト: https://dingry.github.io/projects/PLA.

ソースPDF