HyperAIHyperAI
منذ 17 أيام

تفوقت DETRs على YOLOs في الكشف عن الكائنات في الزمن الفعلي

Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen
تفوقت DETRs على YOLOs في الكشف عن الكائنات في الزمن الفعلي
الملخص

أصبحت سلسلة YOLO الأكثر شيوعًا في كشف الكائنات في الوقت الفعلي بفضل التوازن المعقول بين السرعة والدقة. ومع ذلك، لاحظنا أن السرعة والدقة في YOLO تعانيان من تأثير سلبي ناتج عن عملية NMS. في الآونة الأخيرة، قدّمت الكاشفات القائمة على نموذج Transformer النهاية-إلى-النهاية (DETRs) بديلًا لاستبعاد NMS. لكن التكلفة الحسابية العالية تحد من جدواها العملية، وتعيقها من الاستفادة الكاملة من الميزة الناتجة عن استبعاد NMS. في هذا البحث، نقترح نموذج RT-DETR (Transformer كاشف كائنات في الوقت الفعلي)، وهو أول كاشف كائنات نهائية-إلى-النهاية في الوقت الفعلي، على ما نعلم، يعالج هذا التناقض. نقوم ببناء RT-DETR على مرحلتين، مستلهمين من التطورات الحديثة في DETR: أولاً، نركز على الحفاظ على الدقة مع تحسين السرعة، ثم نركز على الحفاظ على السرعة مع تحسين الدقة. بشكل محدد، نصمم مشغلًا هجينًا فعّالًا يُسرّع معالجة السمات متعددة المقاييس من خلال فصل التفاعل الداخلي داخل المقياس عن دمج السمات عبر المقاييس، مما يعزز السرعة. ثم نقترح خوارزمية اختيار الاستفسارات ذات أقل قدر من عدم اليقين، لتوفير استفسارات أولية عالية الجودة للمرسل، وبالتالي تحسين الدقة. بالإضافة إلى ذلك، يدعم RT-DETR ضبط السرعة بمرن من خلال تعديل عدد طبقات المرسل، مما يسمح بتكيّفه مع سيناريوهات مختلفة دون الحاجة إلى إعادة التدريب. حقق RT-DETR-R50 / R101 دقة 53.1% / 54.3% AP على مجموعة بيانات COCO، وسرعة 108 / 74 إطارًا في الثانية على وحدة معالجة الرسوميات T4، متفوقًا على أحدث إصدارات YOLO من حيث السرعة والدقة معًا. كما طوّرنا نماذج مُوسّعة من RT-DETR تفوق الكاشفات الأخف من YOLO (النماذج S وM). علاوة على ذلك، تتفوق RT-DETR-R50 على DINO-R50 بنسبة 2.2% في الدقة وبنسبة تقارب 21 مرة في السرعة (FPS). وبعد التدريب المسبق باستخدام مجموعة Objects365، حقق RT-DETR-R50 / R101 دقة 55.3% / 56.2% AP. صفحة المشروع: https://zhao-yian.github.io/RTDETR.

تفوقت DETRs على YOLOs في الكشف عن الكائنات في الزمن الفعلي | أحدث الأوراق البحثية | HyperAI