2ヶ月前

ビデオ伝播とラベル緩和を用いた意味分割の改善

Yi Zhu; Karan Sapra; Fitsum A. Reda; Kevin J. Shih; Shawn Newsam; Andrew Tao; Bryan Catanzaro
ビデオ伝播とラベル緩和を用いた意味分割の改善
要約

セマンティックセグメンテーションは、正確なモデルを学習するために大量のピクセル単位のアノテーションが必要です。本論文では、新しい訓練サンプルを合成することで訓練セットを拡大し、セマンティックセグメンテーションネットワークの精度向上を目指すビデオ予測に基づく手法を提案します。我々はビデオ予測モデルが将来のフレームを予測する能力を利用して、将来のラベルも予測することに着目しました。また、合成サンプルにおける誤り合わせを軽減するための共同伝播戦略も提案しています。実験結果から、合成サンプルで拡張されたデータセットでセグメンテーションモデルを訓練すると、精度に大幅な改善が見られることを示しています。さらに、オブジェクト境界沿いでのアノテーションノイズや伝播アーティファクトに対する訓練の堅牢性を高める新たな境界ラベル緩和技術を導入しました。我々が提案した手法は、Cityscapesデータセットで83.5%、CamVidデータセットで82.9%という最先端のmIoU(Mean Intersection over Union)値を達成しました。また、モデルアンサンブルを使用せずに単一モデルでKITTIセマンティックセグメンテーションテストセットにおいて72.8%のmIoU値を達成し、ROBチャレンジ2018年の優勝エントリーを超える結果を得ました。当該コードおよびビデオはhttps://nv-adlr.github.io/publication/2018-Segmentation にて公開されています。