RoadFormer: RGB-通常変換器を用いた意味的道路上シーン解析の二重トランスフォーマー

最近の深層畳み込みニューラルネットワーク(DCNN)の進歩は、道路シーン解析分野において著しい可能性を示しています。しかし、既存の研究は主に自由空間検出に焦点を当てており、運転の安全性や快適性を損なう可能性のある危険な道路欠陥に対する注意が十分に払われていません。本論文では、新しいTransformerベースのデータ融合ネットワークであるRoadFormerを紹介します。RoadFormerは二重エンコーダー構造を使用して、RGB画像と表面法線情報から異なる種類の特徴を抽出します。これらのエンコードされた特徴は、次に新規開発された異種特徴シナジー・ブロックで効果的に融合および再調整されます。ピクセルデコーダーはその後、融合され再調整された異種特徴から多尺度の長距離依存関係を学習し、最終的な意味予測を生成するためにTransformerデコーダーによって処理されます。さらに、我々はSYN-UDTIRIという大規模な道路シーン解析データセットを公開します。これは初めての大規模データセットで、10,407枚以上のRGB画像、密集深度画像、および自由空間と異なる形状やサイズの道路欠陥に対応するピクセルレベルのアノテーションを含んでいます。SYN-UDTIRIデータセットでの広範な実験評価だけでなく、KITTI road, CityScapes, ORFDなどの3つの公開データセットでも行われた評価により、RoadFormerが他の最先端ネットワークよりも優れた性能を示すことが確認されました。特に、RoadFormerはKITTI roadベンチマークで首位に立っています。我々のソースコード、作成したデータセット、およびデモ動画はmias.group/RoadFormerで公開されています。