منذ 17 أيام

ViDT: كاشف كائنات قائم بالكامل على التحويلة وفعال وفعال من حيث الكفاءة

Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han, Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang

الملخص

يُعدّت المحولات (Transformers) مُحدثةً لمشهد الرؤية الحاسوبية، خاصة في المهام المتعلقة بالتمييز. إن محولات الكشف (Detection Transformers) هي أول أنظمة تعلّم متكاملة بالكامل للكشف عن الكائنات، بينما تمثل محولات الرؤية (Vision Transformers) أول بنية قائمة بالكامل على المحولات لتصنيف الصور. في هذه الورقة، ندمج بين محولات الرؤية والكشْف (ViDT) لبناء كاشف كائنات فعّال وفعّال من حيث الأداء. يقدّم ViDT وحدة انتباه إعادة التكوين لتوسيع محول سوين (Swin Transformer) الحديث ليصبح كاشف كائنات مستقلًا، يتبعه فكّ شفرة محول فعّال من حيث الحوسبة، يُستفيد من الميزات متعددة المقياس، إلى جانب تقنيات مساعدة ضرورية لتعزيز أداء الكشف دون زيادة كبيرة في الحمل الحسابي. تُظهر نتائج التقييم الواسعة على مجموعة بيانات معيار مايكروسوفت كوكو (Microsoft COCO) أن ViDT تحقق أفضل توازن بين الدقة (AP) والتأخير (latency) مقارنةً بالكاشفات القائمة بالكامل على المحولات الحالية، كما تحقق 49.2 AP بفضل قابليتها العالية للتوسع في النماذج الكبيرة. سنُطلق كود المصدر والنماذج المدربة على الرابط: https://github.com/naver-ai/vidt