8ヶ月前

概要

空中動画の意味分割は、環境変化の監視、都市計画、災害管理における意思決定支援に広く利用されています。これらの意思決定支援システムの信頼性は、動画の意味分割アルゴリズムの精度に大きく依存しています。既存のCNN（畳み込みニューラルネットワーク）ベースの動画意味分割手法では、LSTMや光流法などの追加モジュールを導入して画像意味分割手法を改良し、動画の時間的なダイナミクスを計算していますが、これは計算負荷となっています。本研究では、時間情報を組み込むことで動画意味分割の効率を向上させるため、CNNアーキテクチャを改良しました。本研究において提案されたUAV動画意味分割用の強化されたエンコーダー-デコーダー型CNNアーキテクチャ（UVid-Net）について説明します。提案されたアーキテクチャのエンコーダーは、時間的に一貫したラベリングのために時間情報を埋め込みます。デコーダーは特徴量洗練モジュール（feature-refiner module）を導入することで強化され、クラスラベルの正確な位置特定に貢献します。提案されたUVid-Netアーキテクチャは拡張ManipalUAVidデータセット上で定量的に評価されました。mIoU（平均交差比）性能指標で0.79という値が得られ、これは他の最先端アルゴリズムよりも大幅に高い結果です。さらに、都市街路シーンでの事前学習モデルに対して最終層をUAV空撮動画で微調整した場合でも、UVid-Netは有望な結果を示しました。以上が翻訳内容です。ご確認ください。

ソースPDF コードを表示