Command Palette
Search for a command to run...
Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

要約
人間は、複数の感覚モダリティの連携(マルチセンサリ・シナジー)を通じて抽象的概念を学習し、形成された概念表現は、単一のモダリティからもしばしば想起可能となる。この知見に着想を得て、空間認知における人間の概念学習を最小限のシミュレーションとして捉える「Concerto」を提案する。本手法は、3D内モダリティ自己蒸留(intra-modal self-distillation)と2D-3D間モダリティ連携埋め込み(cross-modal joint embedding)を統合したアーキテクチャを採用している。単純な構成であるにもかかわらず、Concertoはゼロショットの可視化実験により、より一貫性が高く情報量の多い空間特徴を学習することを示した。3Dシーン認識の線形プロービングにおいて、単独の最先端2Dおよび3D自己教師付きモデル(SOTA)をそれぞれ14.2%および4.8%上回り、それらの特徴量の連結よりも優れた性能を発揮した。フルファインチューニングを適用した場合、Concertoは複数のシーン理解ベンチマークで新たなSOTAを達成(例:ScanNetでは80.7%のmIoU)した。さらに、動画から生成された点群における空間理解に特化したConcertoの変種と、Concertoの表現をCLIPの言語空間に線形変換するトランスレータを提案し、オープンワールドの認知を可能にした。これらの結果は、Concertoが、細粒度の幾何学的・意味的整合性に優れた空間表現を獲得できることを示している。