17日前

空間特徴のキャリブレーションと時系列融合による効果的なワンステージ動画インスタンスセグメンテーション

Minghan Li, Shuai Li, Lida Li, Lei Zhang
空間特徴のキャリブレーションと時系列融合による効果的なワンステージ動画インスタンスセグメンテーション
要約

現代の1段階型動画インスタンスセグメンテーションネットワークには、2つの課題が存在する。第一に、畳み込み特徴量はアンカーboxや正解バウンディングボックスと一致しておらず、マスクの空間的位置に対する感度が低下する。第二に、動画が個々のフレームに直接分割され、フレーム単位でのインスタンスセグメンテーションが行われるため、隣接フレーム間の時間的相関が無視される。これらの問題に対処するために、空間的補正と時間的融合を組み合わせたシンプルでありながら効果的な1段階型動画インスタンスセグメンテーションフレームワーク、すなわちSTMaskを提案する。空間的特徴量の正解バウンディングボックスとの整合性を確保するため、まず正解バウンディングボックスの周囲に回帰されたバウンディングボックスを予測し、その領域から特徴量を抽出してフレーム単位のインスタンスセグメンテーションを実行する。さらに、動画フレーム間の時間的相関を深く掘り下げるために、時間的融合モジュールを導入し、各フレームのインスタンスマスクを隣接フレームに伝播・推定する。これにより、運動ブラー、部分的オクルージョン、カメラに対する異常な物体姿勢といった困難な状況に対しても、本フレームワークが効果的に対応可能となる。YouTube-VIS検証セットにおける実験結果から、ResNet-50およびResNet-101をバックボーンとして用いたSTMaskは、それぞれ33.5%および36.8%のマスクAPを達成しつつ、動画インスタンスセグメンテーションにおいて28.6 FPSおよび23.4 FPSの処理速度を実現した。コードはオンラインで公開されており、https://github.com/MinghanLi/STMask から入手可能である。