HyperAIHyperAI

Command Palette

Search for a command to run...

ViDT: كاشف كائنات قائم بالكامل على التحويلة وفعال وفعال من حيث الكفاءة

Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang

الملخص

يُعدّت المحولات (Transformers) مُحدثةً لمشهد الرؤية الحاسوبية، خاصة في المهام المتعلقة بالتمييز. إن محولات الكشف (Detection Transformers) هي أول أنظمة تعلّم متكاملة بالكامل للكشف عن الكائنات، بينما تمثل محولات الرؤية (Vision Transformers) أول بنية قائمة بالكامل على المحولات لتصنيف الصور. في هذه الورقة، ندمج بين محولات الرؤية والكشْف (ViDT) لبناء كاشف كائنات فعّال وفعّال من حيث الأداء. يقدّم ViDT وحدة انتباه إعادة التكوين لتوسيع محول سوين (Swin Transformer) الحديث ليصبح كاشف كائنات مستقلًا، يتبعه فكّ شفرة محول فعّال من حيث الحوسبة، يُستفيد من الميزات متعددة المقياس، إلى جانب تقنيات مساعدة ضرورية لتعزيز أداء الكشف دون زيادة كبيرة في الحمل الحسابي. تُظهر نتائج التقييم الواسعة على مجموعة بيانات معيار مايكروسوفت كوكو (Microsoft COCO) أن ViDT تحقق أفضل توازن بين الدقة (AP) والتأخير (latency) مقارنةً بالكاشفات القائمة بالكامل على المحولات الحالية، كما تحقق 49.2 AP بفضل قابليتها العالية للتوسع في النماذج الكبيرة. سنُطلق كود المصدر والنماذج المدربة على الرابط: https://github.com/naver-ai/vidt


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp