6ヶ月前

概要

ドライビングシーンにおける意味的認識は、スマート交通システムにおいて重要な役割を果たしている。しかし、従来のTransformerベースの意味的セグメンテーション手法は、ドライビングシーンの動的理解においてその潜在能力を十分に活用できていない場合が多い。これらの手法は通常、空間的推論を欠いており、画像のピクセルとその空間的位置との間に有効な関連性を確立できず、結果としてアテンションのずれ（attention drift）が生じる。この問題に対処するために、本研究では初めて単眼深度推定と意味的セグメンテーションを統合した新たなアーキテクチャ、階層的空間認識Transformer（Hierarchical Spatial Perception Transformer, HSPFormer）を提案する。本手法では、多スケール特徴抽出と複数層の深度マップ予測を実現するための空間的深度認識補助ネットワーク（Spatial Depth Perception Auxiliary Network, SDPNet）を導入し、階層的な空間的一貫性を構築する。さらに、深度推定を学習可能な位置埋め込み（learnable position embeddings）として用いる階層的ピラミッドTransformerネットワーク（Hierarchical Pyramid Transformer Network, HPTNet）を設計することで、空間的に相関する意味的表現を形成し、グローバルな文脈情報を生成する。KITTI-360、Cityscapes、NYU Depth V2といった標準ベンチマークデータセットにおける実験結果から、HSPFormerは複数の最先端手法を上回る性能を示し、それぞれKITTI-360で66.82%のtop-1 mIoU、Cityscapesで83.8%のmIoU、NYU Depth V2で57.7%のmIoUを達成した。コードは、https://github.com/SY-Ch/HSPFormer にて公開予定である。

ソースPDF コードを表示