2ヶ月前
SAM 2: 画像と動画のすべてをセグメント化
Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

要約
私たちは、画像と動画におけるプロンプト可能な視覚的セグメンテーションの解決を目指す基礎モデルであるSegment Anything Model 2(SAM 2)を紹介します。ユーザーとの相互作用を通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大規模の動画セグメンテーションデータセットを収集しました。当社のモデルは、リアルタイムの動画処理に適したストリーミングメモリを持つシンプルなトランスフォーマー構造を採用しています。SAM 2は、私たちが収集したデータで学習され、幅広いタスクにおいて優れた性能を発揮します。動画セグメンテーションにおいては、従来の手法よりも3分の1少ない相互作用でより高い精度を達成しています。画像セグメンテーションでは、当社のモデルはSegment Anything Model(SAM)よりも正確さが向上し、6倍速い処理が可能です。私たちは、当社のデータ、モデル、および洞察が動画セグメンテーションや関連する知覚タスクにとって重要なマイルストーンとなると考えています。当社は、モデルのバージョン、データセット、および対話型デモを公開いたします。