HyperAIHyperAI

Command Palette

Search for a command to run...

DPT: تحويلة مُرنة تعتمد على اللوحات للاعتراف البصري

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

الملخص

حققت نموذج Transformer نجاحًا كبيرًا في مجال الرؤية الحاسوبية، لكن مسألة تقسيم الصور إلى لوحات (patches) ما زالت تمثل تحديًا. تستخدم الطرق الحالية عادةً تضمينًا لوحات بحجم ثابت، وهو ما قد يؤدي إلى تدمير المعاني المتعلقة بالكائنات. لحل هذه المشكلة، نقترح وحدة جديدة تُسمى "لوحة قابلة للتشويه" (Deformable Patch - DePatch)، والتي تتعلم تقسيم الصور تلقائيًا إلى لوحات بمواضع وأحجام مختلفة بطريقة تعتمد على البيانات، بدلاً من استخدام لوحات ثابتة محددة مسبقًا. وبهذا الطريقة، يمكن لطريقة العمل لدينا الحفاظ بكفاءة على المعاني داخل اللوحات. تُعد وحدة DePatch وحدة قابلة للتركيب والتشغيل الفوري (plug-and-play)، ويمكن دمجها بسهولة في مختلف نماذج Transformer لتحقيق تدريب متكامل (end-to-end). ونطلق على نموذج Transformer المدمج به وحدة DePatch اسم "نموذج Transformer القائم على اللوحات القابلة للتشويه" (Deformable Patch-based Transformer - DPT)، ونقوم بإجراء تقييمات واسعة على DPT في مهام التصنيف الصوتي والكشف عن الكائنات. تُظهر النتائج أن DPT يحقق دقة تصل إلى 81.9% في تصنيف ImageNet (الدقة الأولى)، و43.7% في مقياس box mAP باستخدام RetinaNet، و44.3% باستخدام Mask R-CNN في مهام الكشف عن الكائنات على مجموعة بيانات MSCOCO. تم إتاحة الكود المصدر على الرابط التالي: https://github.com/CASIA-IVA-Lab/DPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DPT: تحويلة مُرنة تعتمد على اللوحات للاعتراف البصري | مستندات | HyperAI