17日前

MemorySAM:Segment Anything Modelを用いたモダリティおよび意味の記憶によるマルチモーダル意味セグメンテーション

Liao, Chenfei, Zheng, Xu, Lyu, Yuanhuiyi, Xue, Haiwei, Cao, Yihong, Wang, Jiawen, Yang, Kailun, Hu, Xuming
MemorySAM:Segment Anything Modelを用いたモダリティおよび意味の記憶によるマルチモーダル意味セグメンテーション
要約

研究は、複数の視覚モダリティ(異なるセンサーで取得されたデータ)からピクセル単位の予測を行うマルチモーダル意味分割(MMSS)に注目している。近年、大規模な視覚モデルであるSegment Anything Model 2(SAM2)は、画像および動画において優れたゼロショット分割性能を示している。SAM2をMMSSに拡張する際には、以下の2つの課題が生じる:1. SAM2をマルチモーダルデータにどのように適応させるか? 2. SAM2が意味情報をより深く理解するにはどうすればよいか? 動画におけるフレーム間相関に着想を得て、本研究ではマルチモーダルデータを同一シーンを表すフレームの系列として扱う。提唱する核心的なアイデアは、「モダリティに依存しない情報」と「対象となるシーンに関連する意味情報を」記憶することである。これを実現するため、SAM2のメモリ機構をマルチモーダルデータに適用し、モダリティに依存しない特徴を捉える。同時に、意味知識を記憶するために、訓練時のみに使用する「意味プロトタイプメモリモジュール(SPMM)」を提案する。このモジュールは訓練中にカテゴリレベルのプロトタイプを保存し、SAM2がインスタンス分割から意味分割への遷移をスムーズに行えるように支援する。さらに、グローバルプロトタイプとローカルプロトタイプの間で反復的にプロトタイプ適応損失を課すことにより、SAM2の意味理解を統合的かつ精緻化する。 広範な実験結果から、提案手法であるMemorySAMが、合成データおよび実世界データの両方において、既存の最先端(SoTA)手法を大きく上回ることが示された(DELIVERでは65.38%、MCubeSでは52.88%)。ソースコードは公開予定である。

MemorySAM:Segment Anything Modelを用いたモダリティおよび意味の記憶によるマルチモーダル意味セグメンテーション | 最新論文 | HyperAI超神経