HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

セグメント・アニューリー・モデル2(SAM 2)は、画像および動画におけるオブジェクトセグメンテーションのための強力な基礎モデルとして登場し、さまざまな下流動画アプリケーションの実現を可能にしている。SAM 2の動画セグメンテーションにおける重要な設計は、メモリモジュールであり、前フレームのオブジェクトに特化した記憶を引き出し、現在のフレームの予測に活用する仕組みである。しかし、そのグリーディ選択方式を採用したメモリ設計は、「誤り累積(error accumulation)」問題に直面しており、誤ったまたは漏れたマスクが次々と伝播し、その後のフレームのセグメンテーションに悪影響を及ぼす。この問題は、SAM 2の複雑な長時間動画に対する性能を制限している。こうした課題に対応するため、本研究では、訓練を必要としない動画オブジェクトセグメンテーション戦略「SAM2Long」を提案する。SAM2Longは、各フレーム内のセグメンテーション不確実性を考慮し、制約付きの木探索(tree search)によって複数のセグメンテーション経路から動画全体で最適な結果を選定する。実際には、動画全体を通じて固定数のセグメンテーション経路を維持する。各フレームにおいて、既存の経路に基づいて複数のマスクを提案し、さまざまな候補の分岐を生成する。その後、累積スコアがより高い固定数の分岐を選択し、次のフレームの新たな経路として採用する。最終フレームの処理が終了した後、累積スコアが最も高い経路を最終的なセグメンテーション結果として選定する。ヒューリスティックな探索設計により、SAM2Longは遮蔽やオブジェクトの再出現に対して高いロバスト性を発揮し、複雑な長時間動画におけるオブジェクトの効果的なセグメンテーションとトラッキングが可能となる。特に、SA-VやLVOSといった長時間動画オブジェクトセグメンテーションベンチマークにおいて、J&Fスコアで最大5.3ポイントの向上を達成し、全24件の直接比較において平均3.0ポイントの改善を実現した。コードは、https://github.com/Mark12Ding/SAM2Long にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張 | 記事 | HyperAI超神経