
要約
近年、意味分割(semantic segmentation)において著しい進歩が見られています。しかし、ビデオベースのアプリケーションに分割技術を適用することは依然として困難な課題となっています。特に、ビデオストリームの高スループット、完全畳み込みネットワークの運用コストの高さ、そして多くの実世界アプリケーション(例:自動運転)における低遅延要件は、ビデオ分割フレームワークの設計にとって大きな挑戦となっています。この複合的な課題に対処するため、我々はビデオ意味分割用のフレームワークを開発しました。このフレームワークには2つの新規コンポーネントが組み込まれています。(1) 空間変動畳み込みを用いて時間的に特徴量を適応的に融合する特徴伝播モジュール(feature propagation module)。これにより、各フレームの計算コストが削減されます。(2) 正確度予測に基づいて計算リソースを動的に割り当てるアダプティブスケジューラ(adaptive scheduler)。これらのコンポーネントは協調して動作し、低遅延を確保しながら高い分割品質を維持します。CityscapesおよびCamVidデータセットでの評価結果によると、提案されたフレームワークは最新手法と比較して競争力のある性能を達成しつつ、遅延時間を大幅に削減しており、360ミリ秒から119ミリ秒まで短縮されました。