11日前
V2X-ViT:Vision Transformerを用いた車両間連携感知
Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma

要約
本稿では、車両間通信(Vehicle-to-Everything: V2X)通信を活用して自動運転車両の環境認識性能を向上させる手法について検討する。我々は、新規の視覚Transformer(Vision Transformer)を用いて、V2X通信を統合した堅牢な協調認識フレームワークを提案する。具体的には、道路上のエージェント(すなわち車両およびインフラ)間の情報を効果的に統合できる包括的な注目モデル、すなわちV2X-ViTを構築した。V2X-ViTは、異種マルチエージェント自己注意(heterogeneous multi-agent self-attention)とマルチスケールウィンドウ自己注意(multi-scale window self-attention)を交互に配置した層構造から構成されており、エージェント間の相互作用および各エージェントの空間的関係性を捉えることができる。これらの重要なモジュールは、統一されたTransformerアーキテクチャ内に設計されており、情報共有の非同期性、姿勢誤差、V2Xコンポーネントの異質性といった一般的なV2X課題に対応できる。本手法の有効性を検証するため、CARLAおよびOpenCDAを用いて大規模なV2X認識データセットを構築した。広範な実験結果から、V2X-ViTは3次元物体検出において新たなSOTA(最先端)性能を達成し、ノイズが強く厳しい環境下でも堅牢な性能を発揮することが示された。コードは以下のURLで公開されている:https://github.com/DerrickXuNu/v2x-vit。