2ヶ月前

物体性の出現:ビデオからゼロショットセグメンテーションを学習する

Runtao Liu; Zhirong Wu; Stella X. Yu; Stephen Lin
物体性の出現:ビデオからゼロショットセグメンテーションを学習する
要約

人間は物体が何であるかを知らなくても、動く物体を容易に区画化することができます。視覚的な観察から連続的に物体性が現れることから、ラベルの付いていないビデオからグループ化と動きを同時にモデル化することが動機付けられています。我々の前提は、ビデオが同じシーンの異なるビューを持ち、それらは動く成分によって関連付けられているということです。適切な領域セグメンテーションと領域フローにより、相互ビュー合成が可能となり、これは外部からの監督なしにデータ自体から確認できます。我々のモデルは、2つの独立したパスウェイで始まります:単一画像に対する特徴量ベースの領域セグメンテーションを出力する外観パスウェイと、2枚の画像に対する運動特徴量を出力する運動パスウェイです。その後、これらを結合して「セグメントフロー」と呼ばれる共同表現にまとめます。この表現は各領域におけるフローオフセットを集約し、全体のシーンにおける動く領域の大まかな特性を提供します。セグメントフローに基づくビュー合成エラーを最小化するためにモデルを訓練することで、外観パスウェイと運動パスウェイは低レベルのエッジや光流から構築することなく、自動的に領域セグメンテーションとフロー推定を学習します。我々のモデルは、外観パスウェイにおいて物体性が驚くほど現れることを示しており、ゼロショット画像分割やラベルなしテスト時間適応による動く物体分割、および教師あり微調整による意味的画像分割などの先行研究を超える成果を上げています。本研究は初めて真正なエンドツーエンドのゼロショット物体分割を行うものであり、セグメンテーションと追跡のために一般的な物体性を開発するだけでなく、拡張エンジニアリングなしで一般的な画像ベースのコントラスティブ学習方法よりも優れた性能を発揮します。

物体性の出現:ビデオからゼロショットセグメンテーションを学習する | 最新論文 | HyperAI超神経