Command Palette
Search for a command to run...
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang
概要
セグメント・アニューリー・モデル2(SAM 2)は、画像および動画におけるオブジェクトセグメンテーションのための強力な基礎モデルとして登場し、さまざまな下流動画アプリケーションの実現を可能にしている。SAM 2の動画セグメンテーションにおける重要な設計は、メモリモジュールであり、前フレームのオブジェクトに特化した記憶を引き出し、現在のフレームの予測に活用する仕組みである。しかし、そのグリーディ選択方式を採用したメモリ設計は、「誤り累積(error accumulation)」問題に直面しており、誤ったまたは漏れたマスクが次々と伝播し、その後のフレームのセグメンテーションに悪影響を及ぼす。この問題は、SAM 2の複雑な長時間動画に対する性能を制限している。こうした課題に対応するため、本研究では、訓練を必要としない動画オブジェクトセグメンテーション戦略「SAM2Long」を提案する。SAM2Longは、各フレーム内のセグメンテーション不確実性を考慮し、制約付きの木探索(tree search)によって複数のセグメンテーション経路から動画全体で最適な結果を選定する。実際には、動画全体を通じて固定数のセグメンテーション経路を維持する。各フレームにおいて、既存の経路に基づいて複数のマスクを提案し、さまざまな候補の分岐を生成する。その後、累積スコアがより高い固定数の分岐を選択し、次のフレームの新たな経路として採用する。最終フレームの処理が終了した後、累積スコアが最も高い経路を最終的なセグメンテーション結果として選定する。ヒューリスティックな探索設計により、SAM2Longは遮蔽やオブジェクトの再出現に対して高いロバスト性を発揮し、複雑な長時間動画におけるオブジェクトの効果的なセグメンテーションとトラッキングが可能となる。特に、SA-VやLVOSといった長時間動画オブジェクトセグメンテーションベンチマークにおいて、J&Fスコアで最大5.3ポイントの向上を達成し、全24件の直接比較において平均3.0ポイントの改善を実現した。コードは、https://github.com/Mark12Ding/SAM2Long にて公開されている。