2ヶ月前

カメラを用いた意味的シーン完成の階層的時間文脈学習

Li, Bohan ; Deng, Jiajun ; Zhang, Wenyao ; Liang, Zhujin ; Du, Dalong ; Jin, Xin ; Zeng, Wenjun
カメラを用いた意味的シーン完成の階層的時間文脈学習
要約

カメラを用いた3次元意味的シーン補完(Semantic Scene Completion: SSC)は、限られた2次元画像観測から複雑な3次元レイアウトを予測する上で重要な役割を果たします。既存の主流のソリューションでは、一般的に過去のフレームを単純に積み重ねて現在のフレームを補完することで時間情報を活用していますが、このような単純な時間モデリングは有効な手がかりを減らし、学習の難易度を高めるという問題があります。この問題に対処するために、我々はHTCLと呼ばれる新しい階層的な時間コンテキスト学習(Hierarchical Temporal Context Learning: HTCL)パラダイムを提案します。本研究の主な革新点は、時間コンテキスト学習を以下の2つの階層的なステップに分解することです:(a) フレーム間の親和性測定と (b) 親和性に基づく動的洗練。まず、冗長な情報から重要な関連コンテキストを分離するために、スケールに応じた隔離と複数の独立した学習者を使用して細かいコンテキスト対応モデルを作成するためのパターン親和性を導入します。その後、不完全な観測を動的に補完するために、初期段階で高い親和性を持つ位置とその近傍に関連する領域に基づいて特徴サンプリング位置を適応的に洗練します。我々の方法はSemanticKITTIベンチマークで1位となり、OpenOccupancyベンチマークにおいてもmIoU(平均交差率)に関してLiDARベースの方法を超える結果を得ています。我々のコードは https://github.com/Arlo0o/HTCL で公開されています。

カメラを用いた意味的シーン完成の階層的時間文脈学習 | 最新論文 | HyperAI超神経