برنامج تعليمي عبر الإنترنت | يحقق SAM 3 تجزئة المفاهيم المُلمّحة مع تحسين الأداء بمقدار الضعف، ومعالجة 100 كائن مُكتشف في 30 مللي ثانية

تُعدّ القدرة على تحديد وتقسيم الأجسام المختلفة في المشاهد المرئية أساسًا بالغ الأهمية للذكاء الاصطناعي متعدد الوسائط، وله تطبيقات واسعة في مجالات الروبوتات، وإنشاء المحتوى، والواقع المعزز، وتصنيف البيانات. نموذج SAM (نموذج تقسيم أي شيء) هو نموذج ذكاء اصطناعي عام أطلقته شركة Meta في أبريل 2023، وهو يُقدّم مهمة تقسيم الصور والفيديوهات باستخدام المؤشرات، ويدعم بشكل أساسي تقسيم الأهداف الفردية بناءً على مؤشرات مثل النقاط، أو المربعات المحيطة، أو الأقنعة.
على الرغم من أن نموذجي SAM وSAM2 قد حققا تقدماً ملحوظاً في تجزئة الصور، إلا أنهما لم يصلا بعد إلى القدرة على إيجاد وتجزئة جميع حالات مفهوم معين ضمن المحتوى المدخل تلقائياً. لسد هذه الفجوة،أصدرت شركة Meta أحدث إصداراتها، SAM 3، والتي لا تتجاوز أداء سابقتها بشكل كبير في تجزئة الصور المرئية القابلة للتوجيه (PVS) فحسب، بل تضع أيضًا معيارًا جديدًا لمهام تجزئة المفاهيم القابلة للتوجيه (PCS).

تتضمن بنية SAM 3 كاشفًا ومتتبعًا، وكلاهما يشتركان في نفس المشفر المرئي.يعتمد الكاشف على إطار عمل DETR، ويمكنه استقبال النصوص والمعلومات الهندسية والصور النموذجية كمدخلات مشروطة. ولمعالجة تحديات الكشف عن المفاهيم في المفردات المفتوحة، قدّم الباحثون "رأسًا منفصلاً للحضور" لفصل عمليتي التعرّف والتحديد المكاني.
يعتمد نظام التتبع على بنية التشفير-فك التشفير Transformer الخاصة بـ SAM 2، مما يدعم تجزئة الفيديو والتحسين التفاعلي. يتجنب هذا التصميم، الذي يفصل بين الكشف والتتبع، التضارب بين المهمتين بشكل فعال: إذ يحتاج الكاشف إلى الحفاظ على استقلالية الهوية، بينما يتمثل الهدف الأساسي لنظام التتبع في تمييز هويات الكائنات المختلفة في الفيديو والحفاظ عليها.

حقق SAM 3 نتائج متطورة (SOTA) في مهام PCS للصور والفيديو الخاصة بمعيار SA-Co، بأداء ضعف أداء سابقه.علاوة على ذلك، على وحدة معالجة الرسومات H200، يمكن للإصدار الجديد معالجة صورة واحدة تحتوي على أكثر من 100 كائن للكشف في 30 مللي ثانية فقط.ويمكن أيضًا توسيع النموذج ليشمل مجال إعادة البناء ثلاثي الأبعاد، مما يساعد في تطبيقات مثل معاينات ديكور المنزل، وتحرير الفيديو الإبداعي، والبحث العلمي، مما يوفر دافعًا قويًا للتطوير المستقبلي لرؤية الكمبيوتر.
يتوفر الآن برنامج "SAM3: نموذج التجزئة المرئية" على قسم الدروس التعليمية في موقع HyperAI الإلكتروني (hyper.ai). ابدأ رحلتك الإبداعية الآن!
رابط البرنامج التعليمي:
عرض الورقة:
https://hyper.ai/papers/2511.16719
تشغيل تجريبي
١. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، اختر "SAM3: نموذج التجزئة المرئية"، أو انتقل إلى صفحة "الدروس التعليمية" لاختياره. ثم انقر على "تشغيل هذا الدرس التعليمي عبر الإنترنت".



2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.
ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورتي "NVIDIA GeForce RTX 5090" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".
تقدم HyperAI فوائد التسجيل للمستخدمين الجدد.مقابل $1 فقط، يمكنك الحصول على 5 ساعات من قوة الحوسبة RTX 5090 (السعر الأصلي $2.45).المورد صالح بشكل دائم.


٤. انتظر تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. بمجرد تغيير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال السريع بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي.

عرض التأثير
تُقدّم صفحة العرض التوضيحي ثلاث وظائف: تجزئة الصور، وإضافة نص إلى الفيديو، وإضافة نقاط/مربعات إلى الفيديو، وهي تدعم الإدخال باللغة الإنجليزية فقط. يستخدم هذا البرنامج التعليمي إضافة نص إلى الفيديو كمثال.
بعد تحميل الفيديو التجريبي، أدخل العبارات الاسمية المراد تحديدها وتقسيمها في حقل "مطالبات النص"، ثم انقر على "تطبيق مطالبات النص" و"نشر عبر الفيديو" لتطبيق المطالبات. وأخيرًا، انقر على "تحويل إلى MP4 لتشغيل سلس" لإنشاء فيديو مع تمييز الهدف المحدد.


دعونا نلقي نظرة على الاختبار الذي أجريته باستخدام مقطع من إعلان فيلم "زوتوبيا 2" الذي صدر مؤخرًا 👇

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!
رابط البرنامج التعليمي: