6ヶ月前

概要

動画におけるインスタンスセグメンテーションに対する従来の手法は、通常、検出に基づくトラッキング（tracking-by-detection）パラダイムに従う多段階パイプラインを採用しており、動画クリップを画像の連続としてモデル化する。個々のフレーム内で物体を検出する複数のネットワークを用い、その後、時間的に検出結果を関連付ける。その結果、これらの手法はしばしばエンドツーエンドで学習できない上、特定のタスクに強く依存した構成となっている。本論文では、動画におけるインスタンスセグメンテーションを含む多様なタスクに適した、異なるアプローチを提案する。特に、動画クリップを単一の3次元空間時系列ボリュームとしてモデル化し、空間と時間の両方向においてインスタンスのセグメンテーションとトラッキングを1段階で行う新たなアプローチを提案する。本研究の問題定式化は、時間全体にわたって特定のオブジェクトインスタンスに属する画素をクラスタリングできるように学習される「空間時系列埋め込み（spatio-temporal embeddings）」という概念を中心に据える。これを実現するため、(i) 空間時系列埋め込みの特徴表現を強化する新しい混合関数を導入し、(ii) 時間的文脈を扱える1段階で提案不要なネットワークを設計した。本ネットワークはエンドツーエンドで学習され、空間時系列埋め込みおよびそれらをクラスタリングするためのパラメータを同時に学習するため、推論を大幅に簡素化する。本手法は複数のデータセットおよびタスクにおいて、最先端の性能を達成した。コードとモデルは、https://github.com/sabarim/STEm-Seg で公開されている。

ソースPDF