HyperAIHyperAI
منذ 2 أشهر

ملفّـكودر: رأس تصنيف قابل للتوسيع ومتنوع

Ridnik, Tal ; Sharir, Gilad ; Ben-Cohen, Avi ; Ben-Baruch, Emanuel ; Noy, Asaf
ملفّـكودر: رأس تصنيف قابل للتوسيع ومتنوع
الملخص

في هذا البحث، نقدم ML-Decoder، وهو رأس تصنيف جديد يعتمد على الانتباه (attention). يقوم ML-Decoder بتوقع وجود العلامات الفئوية من خلال الاستعلامات (queries)، مما يتيح استخدام أفضل للبيانات المكانية مقارنة بعمليات التجميع المتوسط العالمي (global average pooling). من خلال إعادة تصميم هندسة المفكك (decoder architecture) واستخدام نظام تفكيك مجموعات جديد (novel group-decoding scheme)، فإن ML-Decoder فعال للغاية ويمكنه التوسع بشكل جيد إلى آلاف الفئات. بالمقارنة مع استخدام هيكل أساسي أكبر (larger backbone)، يوفر ML-Decoder توازنًا أفضل بين السرعة والدقة بشكل مستمر. كما أن ML-Decoder متعدد الاستخدامات - يمكن استخدامه كبديل مباشر لرؤوس التصنيف المختلفة، ويتم عامته إلى فئات غير مشاهدة عند العمل مع استعلامات الكلمات (word queries). تحسن الاستعلامات الجديدة المستندة إلى الاستعلام (novel query augmentations) قدرته على التعميم بشكل إضافي. باستخدام ML-Decoder، حققنا نتائج في الطليعة في عدة مهام تصنيف: على MS-COCO للتصنيف متعدد العلامات، وصلنا إلى 91.4% mAP؛ وعلى NUS-WIDE للتصنيف الصفر-القطري (zero-shot)، وصلنا إلى 31.1% ZSL mAP؛ وعلى ImageNet للتصنيف الأحادي العلامة، حققنا درجة قمة جديدة بلغت 80.7% باستخدام هيكل ResNet50 الأساسي البسيط دون بيانات إضافية أو تقطير (distillation). الرمز العام متاح على الرابط التالي: https://github.com/Alibaba-MIIL/ML_Decoder

ملفّـكودر: رأس تصنيف قابل للتوسيع ومتنوع | أحدث الأوراق البحثية | HyperAI