DPT: تحويلة مُرنة تعتمد على اللوحات للاعتراف البصري

حققت نموذج Transformer نجاحًا كبيرًا في مجال الرؤية الحاسوبية، لكن مسألة تقسيم الصور إلى لوحات (patches) ما زالت تمثل تحديًا. تستخدم الطرق الحالية عادةً تضمينًا لوحات بحجم ثابت، وهو ما قد يؤدي إلى تدمير المعاني المتعلقة بالكائنات. لحل هذه المشكلة، نقترح وحدة جديدة تُسمى "لوحة قابلة للتشويه" (Deformable Patch - DePatch)، والتي تتعلم تقسيم الصور تلقائيًا إلى لوحات بمواضع وأحجام مختلفة بطريقة تعتمد على البيانات، بدلاً من استخدام لوحات ثابتة محددة مسبقًا. وبهذا الطريقة، يمكن لطريقة العمل لدينا الحفاظ بكفاءة على المعاني داخل اللوحات. تُعد وحدة DePatch وحدة قابلة للتركيب والتشغيل الفوري (plug-and-play)، ويمكن دمجها بسهولة في مختلف نماذج Transformer لتحقيق تدريب متكامل (end-to-end). ونطلق على نموذج Transformer المدمج به وحدة DePatch اسم "نموذج Transformer القائم على اللوحات القابلة للتشويه" (Deformable Patch-based Transformer - DPT)، ونقوم بإجراء تقييمات واسعة على DPT في مهام التصنيف الصوتي والكشف عن الكائنات. تُظهر النتائج أن DPT يحقق دقة تصل إلى 81.9% في تصنيف ImageNet (الدقة الأولى)، و43.7% في مقياس box mAP باستخدام RetinaNet، و44.3% باستخدام Mask R-CNN في مهام الكشف عن الكائنات على مجموعة بيانات MSCOCO. تم إتاحة الكود المصدر على الرابط التالي: https://github.com/CASIA-IVA-Lab/DPT.