HyperAIHyperAI
منذ 17 أيام

MaX-DeepLab: التجزئة الشاملة النهائية النهائية باستخدام نماذج الأقنعة

Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
MaX-DeepLab: التجزئة الشاملة النهائية النهائية باستخدام نماذج الأقنعة
الملخص

نُقدِّم MaX-DeepLab، أول نموذج متكامل من البداية إلى النهاية لتحليل البانوبتيك (panoptic segmentation). يبسّط نهجنا المسار الحالي الذي يعتمد بشكل كبير على مهام فرعية بديلة ومكونات مصممة يدويًا، مثل كشف المربعات (box detection)، وتصفية القصوى غير المُتعدّدة (non-maximum suppression)، ودمج العناصر المُتحركة مع العناصر غير المتحركة (thing-stuff merging)، إلخ. وعلى الرغم من أن هذه المهام الفرعية تُعالجها خبراء متخصصون في المجال، إلا أنها تفشل في حل المهمة المستهدفة بشكل شمولي. على النقيض، يُنبِّئ MaX-DeepLab مباشرةً بخرائط مُوسومة بالفئات باستخدام محول الأقنعة (mask transformer)، ويُدرَّب باستخدام دالة خسارة مُستوحاة من جودة البانوبتيك من خلال عملية تطابق ثنائي (bipartite matching). يستخدم محول الأقنعة لدينا معمارية ذات طريقتين: طريقتين، حيث يُضيف مسارًا ذا ذاكرة عالمية إلى جانب المسار المبني على الشبكات العصبية التلافيفية (CNN)، مما يسمح بالتواصل المباشر مع أي طبقة من طبقات CNN. نتيجة لذلك، يُظهر MaX-DeepLab تحسنًا كبيرًا بنسبة 7.1% في مؤشر PQ (Panoptic Quality) في البيئة الخالية من المربعات (box-free regime) على مجموعة بيانات COCO الصعبة، مما يُغلق الفجوة بين الطرق القائمة على المربعات والطرق الخالية منها لأول مرة. كما أن النسخة الصغيرة من MaX-DeepLab تتفوّق بنسبة 3.0% في مؤشر PQ مقارنةً بـ DETR، مع عدد مماثل من المعاملات (parameters) وكمية مماثلة من العمليات الحسابية (M-Adds). علاوةً على ذلك، يحقّق MaX-DeepLab، دون استخدام تعزيز وقت الاختبار (test time augmentation)، أفضل أداءً مُسجّلًا حتى الآن بنسبة 51.3% في مؤشر PQ على مجموعة بيانات COCO test-dev. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/google-research/deeplab2.