SAM 2: تقسيم أي شيء في الصور والفيديوهات

نقدم نموذج "Segment Anything Model 2" (SAM 2)، وهو نموذج أساسي نحو حل مشكلة التقطيع البصري القابل للتحفيز في الصور والفيديوهات. لقد قمنا ببناء محرك بيانات يحسن النموذج والبيانات من خلال التفاعل مع المستخدمين، مما مكّننا من جمع أكبر مجموعة بيانات للفيديو المقطّع حتى الآن. يتكون نموذجنا من هندسة مبسطة للمتحولات (transformer) مع ذاكرة متواصلة لمعالجة الفيديو في الوقت الحقيقي. يوفر SAM 2، الذي تم تدريبه على بياناتنا، أداءً قويًا عبر مجموعة واسعة من المهام. في مجال تقسيم الفيديو، نلاحظ دقة أعلى باستخدام ثلاثة أضعاف أقل التفاعلات مقارنة بالطرق السابقة. وفي تقسيم الصور، يكون نموذجنا أكثر دقة وستة أضعاف أسرع من نموذج "Segment Anything Model" (SAM). نعتقد أن بياناتنا والنماذج الخاصة بنا والأفكار التي استخلصناها ستشكل نقطة تحول مهمة في تقسيم الفيديو والمهمات الإدراكية ذات الصلة. سنقوم بإصدار إصدار من نموذجنا، ومجموعة البيانات، وتجربة تفاعلية.