HyperAI超神経

概要

セグメント・アニューリー・モデル2（SAM 2）は、画像および動画におけるオブジェクトセグメンテーションのための強力な基礎モデルとして登場し、さまざまな下流動画アプリケーションの実現を可能にしている。SAM 2の動画セグメンテーションにおける重要な設計は、メモリモジュールであり、前フレームのオブジェクトに特化した記憶を引き出し、現在のフレームの予測に活用する仕組みである。しかし、そのグリーディ選択方式を採用したメモリ設計は、「誤り累積（error accumulation）」問題に直面しており、誤ったまたは漏れたマスクが次々と伝播し、その後のフレームのセグメンテーションに悪影響を及ぼす。この問題は、SAM 2の複雑な長時間動画に対する性能を制限している。こうした課題に対応するため、本研究では、訓練を必要としない動画オブジェクトセグメンテーション戦略「SAM2Long」を提案する。SAM2Longは、各フレーム内のセグメンテーション不確実性を考慮し、制約付きの木探索（tree search）によって複数のセグメンテーション経路から動画全体で最適な結果を選定する。実際には、動画全体を通じて固定数のセグメンテーション経路を維持する。各フレームにおいて、既存の経路に基づいて複数のマスクを提案し、さまざまな候補の分岐を生成する。その後、累積スコアがより高い固定数の分岐を選択し、次のフレームの新たな経路として採用する。最終フレームの処理が終了した後、累積スコアが最も高い経路を最終的なセグメンテーション結果として選定する。ヒューリスティックな探索設計により、SAM2Longは遮蔽やオブジェクトの再出現に対して高いロバスト性を発揮し、複雑な長時間動画におけるオブジェクトの効果的なセグメンテーションとトラッキングが可能となる。特に、SA-VやLVOSといった長時間動画オブジェクトセグメンテーションベンチマークにおいて、J&Fスコアで最大5.3ポイントの向上を達成し、全24件の直接比較において平均3.0ポイントの改善を実現した。コードは、https://github.com/Mark12Ding/SAM2Long にて公開されている。

概要

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

SAM2Long：トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

SAM2Long：トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

SAM2Long：トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

概要

AIでAIを構築

HyperAI Newsletters