Command Palette

Search for a command to run...

7日前

コンチェルト:2次元-3次元連合自己教師学習が空間表現を生み出す

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

コンチェルト:2次元-3次元連合自己教師学習が空間表現を生み出す

要約

人間は、複数の感覚モダリティの連携(マルチセンサリ・シナジー)を通じて抽象的概念を学習し、形成された概念表現は、単一のモダリティからもしばしば想起可能となる。この知見に着想を得て、空間認知における人間の概念学習を最小限のシミュレーションとして捉える「Concerto」を提案する。本手法は、3D内モダリティ自己蒸留(intra-modal self-distillation)と2D-3D間モダリティ連携埋め込み(cross-modal joint embedding)を統合したアーキテクチャを採用している。単純な構成であるにもかかわらず、Concertoはゼロショットの可視化実験により、より一貫性が高く情報量の多い空間特徴を学習することを示した。3Dシーン認識の線形プロービングにおいて、単独の最先端2Dおよび3D自己教師付きモデル(SOTA)をそれぞれ14.2%および4.8%上回り、それらの特徴量の連結よりも優れた性能を発揮した。フルファインチューニングを適用した場合、Concertoは複数のシーン理解ベンチマークで新たなSOTAを達成(例:ScanNetでは80.7%のmIoU)した。さらに、動画から生成された点群における空間理解に特化したConcertoの変種と、Concertoの表現をCLIPの言語空間に線形変換するトランスレータを提案し、オープンワールドの認知を可能にした。これらの結果は、Concertoが、細粒度の幾何学的・意味的整合性に優れた空間表現を獲得できることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
コンチェルト:2次元-3次元連合自己教師学習が空間表現を生み出す | 論文 | HyperAI超神経