2ヶ月前

SAM 2: 画像と動画のすべてをセグメント化

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer
SAM 2: 画像と動画のすべてをセグメント化
要約

私たちは、画像と動画におけるプロンプト可能な視覚的セグメンテーションの解決を目指す基礎モデルであるSegment Anything Model 2(SAM 2)を紹介します。ユーザーとの相互作用を通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大規模の動画セグメンテーションデータセットを収集しました。当社のモデルは、リアルタイムの動画処理に適したストリーミングメモリを持つシンプルなトランスフォーマー構造を採用しています。SAM 2は、私たちが収集したデータで学習され、幅広いタスクにおいて優れた性能を発揮します。動画セグメンテーションにおいては、従来の手法よりも3分の1少ない相互作用でより高い精度を達成しています。画像セグメンテーションでは、当社のモデルはSegment Anything Model(SAM)よりも正確さが向上し、6倍速い処理が可能です。私たちは、当社のデータ、モデル、および洞察が動画セグメンテーションや関連する知覚タスクにとって重要なマイルストーンとなると考えています。当社は、モデルのバージョン、データセット、および対話型デモを公開いたします。

SAM 2: 画像と動画のすべてをセグメント化 | 最新論文 | HyperAI超神経