
الملخص
فيما يلي ترجمة النص إلى اللغة العربية، مع الالتزام بالدقة والمصطلحات التقنية المتخصصة والأسلوب الأكاديمي الرسمي:"نُقدِّم 'نموذج تجزئة أي شيء 3' (SAM 3)، وهو نموذج موحَّد يقوم باكتشاف وتجزئة وتتبع الكائنات في الصور ومقاطع الفيديو استناداً إلى 'توجيهات مفاهيمية' (Concept Prompts). ونُعرّف هذه التوجيهات بأنها إما عبارات اسمية قصيرة (على سبيل المثال: 'حافلة مدرسية صفراء')، أو نماذج صورية (Image Exemplars)، أو مزيج من كليهما. تقوم تقنية 'التجزئة المفاهيمية القابلة للتوجيه' (PCS) بمعالجة هذه التوجيهات وإرجاع أقنعة تجزئة (Segmentation Masks) وهويات فريدة لجميع نماذج الكائنات المطابقة.وللنهوض بتقنية PCS، قمنا ببناء محرك بيانات قابل للتوسع ينتج مجموعة بيانات عالية الجودة تضم 4 ملايين تسمية مفاهيمية فريدة، تشمل الأمثلة السلبية الصعبة (Hard Negatives)، عبر الصور ومقاطع الفيديو. يتكون نموذجنا من كاشف على مستوى الصورة ومتتبع فيديو قائم على الذاكرة يشتركان في بنية أساسية (Backbone) واحدة. كما تم فصل عمليتي التعرف (Recognition) وتحديد الموقع (Localization) باستخدام وحدة 'رأس الوجود' (Presence Head)، مما يعزز بشكل كبير من دقة الاكتشاف. يضاعف نموذج SAM 3 دقة الأنظمة الحالية في مهام التجزئة المفاهيمية القابلة للتوجيه (PCS) للصور والفيديوهات على حد سواء، كما يُحسِّن من قدرات نماذج SAM السابقة في مهام التجزئة البصرية. نُتيح نموذج SAM 3 كمصدر مفتوح (Open Source)، جنباً إلى جنب مع معيارنا القياسي الجديد 'تجزئة أي شيء بالمفاهيم' (SA-Co) المخصص لتقييم التجزئة المفاهيمية القابلة للتوجيه."
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.