2ヶ月前
学習すべき内容を学習するビデオオブジェクトセグメンテーションのための方法
Goutam Bhat; Felix Järemo Lawin; Martin Danelljan; Andreas Robinson; Michael Felsberg; Luc Van Gool; Radu Timofte

要約
ビデオオブジェクトセグメンテーション(VOS)は非常に困難な問題であり、対象物体は推論時に与えられた最初のフレームのリファレンスマスクによってのみ定義されます。この限られた対象情報を捉え、活用する方法に関する問題は、依然として基本的な研究課題となっています。本研究では、この問題に対処するために、微分可能な少ショット学習モジュールを統合したエンドツーエンドで学習可能なVOSアーキテクチャを導入します。この内部学習器は、最初のフレームでのセグメンテーション誤差を最小化することにより、対象物体の強力なパラメトリックモデルを予測するように設計されています。さらに、標準的な少ショット学習技術を超えて、少ショット学習器が何を学習すべきかを学習することで、現在のフレームにおける対象物体の豊かな内部表現を得ることができます。これにより、当アプローチのセグメンテーション精度が大幅に向上します。我々は複数のベンチマークデータセットで広範な実験を行いました。当アプローチは大規模なYouTube-VOS 2018データセットにおいて全体スコア81.5を達成し、これは従来の最良結果に対して2.6%の相対的な改善に相当します。