17日前

ULIP-2:3D理解におけるスケーラブルなマルチモーダル事前学習へ向けて

Le Xue, Ning Yu, Shu Zhang, Artemis Panagopoulou, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
ULIP-2:3D理解におけるスケーラブルなマルチモーダル事前学習へ向けて
要約

最近のマルチモーダル事前学習の進展により、3D形状とその2D対応物、および言語記述の間でマルチモーダル特徴を統合する手法が、3D表現学習において有望な効果を示している。しかし、既存のフレームワークが用いるマルチモーダルデータ(特に3D形状に対する言語記述)の収集手法はスケーラブルではなく、得られた言語記述の多様性も十分ではない。この問題に対処するため、本研究では、大規模マルチモーダルモデルを活用して3D形状に対して包括的な言語記述を自動生成する、シンプルながら効果的な三モーダル事前学習フレームワーク「ULIP-2」を提案する。ULIP-2は3Dデータのみを入力とし、手動による3Dアノテーションを一切不要とするため、大規模データセットへのスケーラビリティを実現している。また、より優れたマルチモーダル表現学習を実現するため、拡張されたバックボーンを搭載している。本研究では、ObjaverseおよびShapeNetという2つの大規模3Dデータセットを用い、3Dポイントクラウド、画像、言語の三モーダルデータセットを拡張してULIP-2の学習に利用した。実験の結果、ULIP-2は3つの下流タスクにおいて顕著な性能向上を示した:ゼロショット3D分類、ファインチューニングを伴う標準的な3D分類、および3Dキャプション(3Dから言語への生成)。特にゼロショット分類において、Objaverse-LVISでは50.6%(top-1)という新たなSOTAを達成し、ModelNet40では84.7%(top-1)を記録した。標準的なファインチューニングを想定したScanObjectNNベンチマークでは、わずか140万パラメータのコンパクトなモデルで全体精度91.5%を達成した。ULIP-2は、人間によるアノテーションなしでスケーラブルなマルチモーダル3D表現学習の新しいパラダイムを提示し、既存のベースライン手法に対して顕著な性能向上を示した。コードおよびデータセットは、https://github.com/salesforce/ULIP にて公開されている。

ULIP-2:3D理解におけるスケーラブルなマルチモーダル事前学習へ向けて | 最新論文 | HyperAI超神経