2ヶ月前
FEELVOS: 動画オブジェクトセグメンテーションのための高速なエンドツーエンド埋め込み学習
Paul Voigtlaender; Yuning Chai; Florian Schroff; Hartwig Adam; Bastian Leibe; Liang-Chieh Chen

要約
最近のビデオオブジェクトセグメンテーション(VOS)における成功した手法の多くは、過度に複雑であり、最初のフレームでの微調整に大きく依存しているか、または遅いことから、実用的な用途が限定的となっています。本研究では、微調整に依存しない単純かつ高速な手法FEELVOSを提案します。ビデオの各フレームをセグメンテーションするために、FEELVOSは意味的な画素単位の埋め込みと、全体的なマッチング機構および局所的なマッチング機構を使用して、最初のフレームや前フレームからの情報を現在のフレームへ転送します。従来の手法とは異なり、当研究における埋め込みは畳み込みネットワークの内部ガイダンスとしてのみ使用されます。新規性のある動的セグメンテーションヘッドにより、クロスエントロピー損失関数を使用して多目的セグメンテーションタスク向けにネットワーク(埋め込みを含む)をエンドツーエンドで学習させることが可能となりました。当手法は微調整を行わずにDAVIS 2017検証セットにおいてJ&F測定値71.5%という新たな最先端の性能を達成しました。コードとモデルはhttps://github.com/tensorflow/models/tree/master/research/feelvos で公開しています。