تقطيع أي شيء بجودة عالية

يُعد نموذج Segment Anything الأخير (SAM) قفزة كبيرة في توسيع نماذج التجزئة، مما يمكّن من إمكانات قوية في التنبؤ الصفرية (zero-shot) والتحفيز المرنة. وعلى الرغم من تدريبه باستخدام 1.1 مليار قناع، فإن جودة تنبؤات القناع الخاصة بـ SAM تبقى غير كافية في العديد من الحالات، خاصة عند التعامل مع الكائنات ذات الهياكل المعقدة. نقترح نموذج HQ-SAM، الذي يزود SAM بالقدرة على تجزئة أي كائن بدقة، مع الحفاظ على التصميم القابل للتحفيز الأصلي، والكفاءة، والقدرة العامة الصفرية (zero-shot generalizability). ويُعد تصميمنا الدقيق مُكرّرًا وقائمًا على الحفاظ على أوزان النموذج المُدرّب مسبقًا لـ SAM، مع إدخال عدد ضئيل جدًا من المعاملات والحسابات الإضافية. قمنا بتصميم "رمز مخرج عالي الجودة قابل للتعلم"، والذي يتم دمجه في فك تشفير القناع (mask decoder) لـ SAM، ويُسند إليه مهمة توقع القناع عالي الجودة. بدلًا من تطبيقه فقط على ميزات فك التشفير الخاصة بالقناع، نقوم أولاً بدمج هذه الميزات مع ميزات ViT المبكرة والنهائية لتحسين تفاصيل القناع. ولتدريب المعاملات القابلة للتعلم التي أدخلناها، قمنا بإنشاء مجموعة بيانات مكوّنة من 44 ألف قناع دقيق من عدة مصادر. ويتم تدريب HQ-SAM فقط على مجموعة البيانات المُقدّمة المكوّنة من 44 ألف قناع، وذلك خلال 4 ساعات فقط على 8 وحدات معالجة رسومية (GPUs). ونُظهر فعالية HQ-SAM في مجموعة متنوعة من 10 مجموعات بيانات للتجزئة، ضمن مهام تطبيقية مختلفة، حيث تم تقييم 8 منها باستخدام بروتوكول نقل صفرية (zero-shot transfer). يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا عبر الرابط التالي: https://github.com/SysCV/SAM-HQ.