17日前

点群理解のための統一的クエリベース枠組み

Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia
点群理解のための統一的クエリベース枠組み
要約

3次元点群の理解は、自動運転およびロボティクスにおいて重要な要素である。本論文では、物体検出、セグメンテーション、分類を含む多様な3次元理解タスクに対応するための新しい「埋め込み・照合(Embedding-Querying, EQ)パラダイム」を提案する。EQパラダイムは、任意の既存の3次元バックボーンアーキテクチャと異なるタスクヘッドを統合可能な包括的なフレームワークである。EQパラダイムでは、まず入力データが任意の特徴抽出アーキテクチャを用いて埋め込み段階で符号化される。この段階はタスクやヘッドに依存せず、独立して実行される。その後、照合段階において、符号化された特徴が多様なタスクヘッドに適応可能となる。これは、照合段階に中間表現であるQ表現(Q-representation)を導入することで実現される。Q表現は埋め込み段階とタスクヘッドの間を橋渡しする役割を果たす。本研究では、照合段階のネットワークとして新しいQ-Netを設計した。複数の3次元タスク、特に物体検出、意味セグメンテーション、形状分類において実施された広範な実験結果から、EQパラダイムとQ-Netを組み合わせたパイプラインが汎用性と有効性を備えており、バックボーンとヘッド間の柔軟な協調を可能にするとともに、最先端手法の性能をさらに向上させることを示した。コードおよびモデルは、https://github.com/dvlab-research/DeepVision3D にて公開されている。

点群理解のための統一的クエリベース枠組み | 最新論文 | HyperAI超神経