7ヶ月前

概要

意味論的ビデオセグメンテーションは、正確なモデルを構築するために処理およびラベリングが必要な膨大なデータ量のため、困難を伴います。本論文では、ラベル付けされていないデータに含まれる情報を活用して意味論的推定を改善する能力を持つ、深層でエンドツーエンド学習可能なビデオセグメンテーション手法を提案します。当手法は、畳み込みアーキテクチャと空間時間変換器再帰層を組み合わせており、光流（Optical Flow）を利用してラベル情報の時系列的な伝播が可能であり、その局所的に推定された不確実性に基づいて適応的にゲーティングされます。光流、認識、ゲーティングされた時系列伝播モジュールは、エンドツーエンドで共同訓練することが可能です。当モデルの時系列的なゲーティング再帰光流伝播コンポーネントは、任意の静止画意味論的セグメンテーションアーキテクチャに組み込むことができ、弱教師ありのビデオ処理アーキテクチャへと転換します。我々がCityScapesおよびCamVidデータセットにおいて複数の深層アーキテクチャを使用して行った広範な実験結果から、得られたモデルはラベル付けされたフレームだけでなくラベル付けされていない時系列フレームも活用し、ビデオセグメンテーションの精度とその時系列ラベリングの一貫性を向上させることができることが示されました。これは追加の注釈コストなしで、そして僅かな追加計算量で達成されます。

ソースPDF