2ヶ月前

SAM2Long: 長尺ビデオセグメンテーションのためのトレーニングフリー記憶木を使用したSAM 2の強化

Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
SAM2Long: 長尺ビデオセグメンテーションのためのトレーニングフリー記憶木を使用したSAM 2の強化
要約

セグメント・アニー・モデル2(Segment Anything Model 2、以下SAM 2)は、画像および動画におけるオブジェクト分割のための強力な基盤モデルとして登場し、さまざまな下流動画応用への道を開きました。SAM 2の動画分割に重要な設計要素はメモリモジュールであり、これにより前のフレームからオブジェクト認識メモリを引き出し、現在のフレーム予測に活用します。しかし、その貪欲選択メモリ設計は「誤差蓄積」問題に悩まされており、エラーまたは見落とされたマスクが連鎖的に影響を与え、後続フレームの分割結果を悪化させる可能性があります。これはSAM 2の複雑な長期動画に対する性能を制限しています。この課題に対処するため、私たちはSAM2Longという改善された学習不要の動画オブジェクト分割戦略を提案します。この方法では、各フレーム内の分割不確実性を考慮し、制約付き木探索方式で複数の分割経路からビデオ全体での最適な結果を選択します。具体的には、動画全体を通じて一定数の分割経路を維持します。各フレームに対して既存の経路に基づいて複数のマスクが提案され、さまざまな候補枝が生成されます。次に、累積スコアが高い同じ一定数の枝を選択し、新しい経路として次のフレームに進ませます。最終フレーム処理後、最も高い累積スコアを持つ経路を選んで最終的な分割結果とします。ヒューリスティック探索設計のおかげで、SAM2Longは被覆やオブジェクト再出現に対して堅牢性を持ち、複雑な長期動画において効果的にオブジェクトを分割および追跡できます。特に注目に値するのは、SAM2Longがすべての24項目の直接比較で平均3.0ポイント向上しており、SA-VやLVOSなどの長期動画オブジェクト分割ベンチマークにおいてJ&Fで最大5.3ポイント向上していることです。コードはhttps://github.com/Mark12Ding/SAM2Long で公開されています。

SAM2Long: 長尺ビデオセグメンテーションのためのトレーニングフリー記憶木を使用したSAM 2の強化 | 最新論文 | HyperAI超神経