HyperAIHyperAI
منذ 3 أشهر

مي-ديتر: نموذج كشف الكائنات ذا آلية استفسارات متعددة الأزمنة

Nan, Zhixiong, Li, Xianghong, Dai, Jifeng, Xiang, Tao
مي-ديتر: نموذج كشف الكائنات ذا آلية استفسارات متعددة الأزمنة
الملخص

استنادًا إلى تحليل طبيعة بنية المُفكّك المتسلسلة (cascaded decoder architecture) التي تُستخدم بشكل شائع في النماذج المشابهة لـ DETR الحالية، يُقدّم هذا البحث بنية مُفكّك جديدة. تُقيّد بنية المُفكّك المتسلسلة تحديث استفسارات الكائنات (object queries) في الاتجاه المتسلسل فقط، مما يُمكّن استفسارات الكائنات من استخلاص معلومات محدودة نسبيًا من ميزات الصورة. ومع ذلك، فإن التحديات المطروحة في كشف الكائنات في المشاهد الطبيعية (مثل الكائنات الصغيرة جدًا، والمحجوبة بشدة، أو المختلطة بشكل مُربك مع الخلفية) تتطلب من نموذج كشف الكائنات استغلالًا كاملًا لميزات الصورة، وهو ما يُحفّزنا على اقتراح بنية مُفكّك جديدة تمتلك آلية الاستفسار المتعدد في الأوقات (Multi-time Inquiries, MI) المتوازية. تُمكّن آلية MI استفسارات الكائنات من استخلاص معلومات أكثر شمولاً، ويُظهر نموذجنا المستند إلى MI، المُسمّى MI-DETR، تفوقًا على جميع النماذج المشابهة لـ DETR الحالية في معيار COCO، بجميع خلفيات (backbones) مختلفة وفترة تدريب متنوعة، حيث يحقق تحسينًا بنسبة +2.3 AP و+0.6 AP مقارنة بالنموذج الأكثر تمثيلية DINO والنموذج الأفضل من حيث الأداء (SOTA) Relation-DETR باستخدام خلفية ResNet-50. بالإضافة إلى ذلك، تُظهر مجموعة من التجارب التحليلية والتصورية فعالية وعقلانية وقابلية تفسير آلية MI.