HyperAIHyperAI
منذ 17 أيام

مُفكِّك مُتكرِّر يعتمد على الرؤى المتكررة للكشف باستخدام المُحوِّل

Zhe Chen, Jing Zhang, Dacheng Tao
مُفكِّك مُتكرِّر يعتمد على الرؤى المتكررة للكشف باستخدام المُحوِّل
الملخص

على الرغم من ازدياد شعبية الكشف باستخدام المحولات (DETR)، فإن نمذجة الانتباه الشاملة التي تعتمد عليها تتطلب فترة تدريب طويلة جدًا للتحسين وتحقيق أداء كشف متميز. بدلًا من الدراسات الحالية التي تركز بشكل رئيسي على تطوير تصميمات متقدمة للميزات أو التضمين لمعالجة مشكلة التدريب، نشير إلى أن تحسين الكشف القائم على مناطق الاهتمام (RoI) يمكنه بسهولة تخفيف صعوبة التدريب الخاصة بطرق DETR. بناءً على ذلك، نقدّم في هذا البحث مُفكّرًا جديدًا يُسمى REGO (REcurrent Glimpse-based decOder). ويُطبّق REGO هيكلًا متعدد المراحل للمعالجة المتكررة، بهدف مساعدة انتباه DETR على التركيز تدريجيًا على الكائنات الأمامية بدقة أكبر. في كل مرحلة من مراحل المعالجة، تُستخرج ميزات بصرية كمُلامسات (glimpse features) من مناطق الاهتمام (RoIs) التي تم توسيع حدودها المحيطة بناءً على نتائج الكشف من المرحلة السابقة. ثم يتم تقديم مُفكّر مبني على المُلامسات لتقديم نتائج كشف محسّنة بناءً على كل من ميزات المُلامسات ونتائج نمذجة الانتباه من المرحلة السابقة. في التطبيق العملي، يمكن دمج REGO بسهولة في متغيرات متميزة لـ DETR مع الحفاظ على سير التدريب والتنفيذ الكاملين من الطرفين (end-to-end). على وجه التحديد، يساعد REGO في تحقيق Deformable DETR لقيمة 44.8 AP على مجموعة بيانات MSCOCO باستخدام فقط 36 دورة تدريب، مقارنةً بالنموذج الأولي DETR وDeformable DETR اللذين يتطلبان 500 و50 دورة تدريب على التوالي للوصول إلى أداء مماثل. كما تُظهر التجارب أن REGO يعزز أداء مختلف مُكتشفات DETR بشكل متسق، بزيادة نسبية تصل إلى 7٪ عند نفس إعدادات 50 دورة تدريب. يتوفر الكود عبر الرابط: https://github.com/zhechen/Deformable-DETR-REGO.