
要約
エンコーダー-デコーダーフレームワークは、オフラインの意味的画像セグメンテーションにおいて最先端の手法です。自律システムの普及に伴い、リアルタイム計算がますます求められています。本論文では、高解像度画像データ(1024x2048ピクセル)に対して効率的な計算を可能にする埋め込みデバイス向けの超リアルタイム意味的セグメンテーションモデルである高速セグメンテーション畳み込みニューラルネットワーク(Fast-SCNN)を紹介します。既存の高速セグメンテーション用二分岐手法を基に、我々は「ダウンサンプリング学習」モジュールを導入しました。このモジュールは、複数の解像度ブランチに対して同時に低レベル特徴量を計算します。当社のネットワークは、高解像度での空間詳細と低解像度で抽出された深層特徴量を組み合わせることで、Cityscapesデータセット上で123.5フレーム毎秒で68.0%の平均交差率(mean intersection over union)を達成しています。また、大規模な事前学習が不要であることを示しています。ImageNetでの事前学習やCityscapesの粗ラベルデータを使用した実験を通じて、当社の評価指標を徹底的に検証しました。最後に、ネットワークの変更なしでサブサンプリングされた入力に対してさらに高速な計算と競争力のある結果を得られることが確認できました。