منذ 2 أشهر

SAM 2: تقسيم أي شيء في الصور والفيديوهات

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

عرض تفاصيل الورقة البحثية

SAM 2: تقسيم أي شيء في الصور والفيديوهات

الملخص

نقدم نموذج "Segment Anything Model 2" (SAM 2)، وهو نموذج أساسي نحو حل مشكلة التقطيع البصري القابل للتحفيز في الصور والفيديوهات. لقد قمنا ببناء محرك بيانات يحسن النموذج والبيانات من خلال التفاعل مع المستخدمين، مما مكّننا من جمع أكبر مجموعة بيانات للفيديو المقطّع حتى الآن. يتكون نموذجنا من هندسة مبسطة للمتحولات (transformer) مع ذاكرة متواصلة لمعالجة الفيديو في الوقت الحقيقي. يوفر SAM 2، الذي تم تدريبه على بياناتنا، أداءً قويًا عبر مجموعة واسعة من المهام. في مجال تقسيم الفيديو، نلاحظ دقة أعلى باستخدام ثلاثة أضعاف أقل التفاعلات مقارنة بالطرق السابقة. وفي تقسيم الصور، يكون نموذجنا أكثر دقة وستة أضعاف أسرع من نموذج "Segment Anything Model" (SAM). نعتقد أن بياناتنا والنماذج الخاصة بنا والأفكار التي استخلصناها ستشكل نقطة تحول مهمة في تقسيم الفيديو والمهمات الإدراكية ذات الصلة. سنقوم بإصدار إصدار من نموذجنا، ومجموعة البيانات، وتجربة تفاعلية.