HyperAIHyperAI

Command Palette

Search for a command to run...

Jigsaw-ViT: تعلّم ألغاز الجigsaw في نموذج التحويل البصري

Yingyi Chen Xi Shen Yahui Liu Qinghua Tao Johan A.K. Suykens

الملخص

لقد أدى النجاح الذي حققته نموذج التحويل البصري (ViT) في مهام الرؤية الحاسوبية المختلفة إلى انتشار متزايد لهذا الشبكة الخالية من التحويلات التلافيفية (convolution-free). ونظرًا لأن ViT يعمل على قطع الصور، فإن هذا يجعله مرتبطًا بشكل محتمل بمشكلة حل ألغاز القطع المجزأة (jigsaw puzzle)، وهي مهمة ذاتية التدريب كلاسيكية تهدف إلى إعادة ترتيب قطع الصور المختلطة تسلسليًا إلى شكلها الطبيعي. وعلى الرغم من بساطتها، أُثبت أن حل ألغاز القطع يُعد مفيدًا لمهام متنوعة باستخدام الشبكات العصبية التلافيفية (CNNs)، مثل تعلم تمثيل الميزات ذاتية التدريب، والتعميم عبر المجالات، والتصنيف الدقيق.في هذه الورقة، نستعرض حل ألغاز القطع كمهمة مساعدة ذاتية التدريب في ViT لتصنيف الصور، ونُسمّي النموذج الناتج Jigsaw-ViT. ونُظهر تعديلين يمكن أن يجعلا Jigsaw-ViT أفضل من ViT القياسي: التخلي عن التضمينات المكانية (positional embeddings) وتقنيّة تغطية القطع بشكل عشوائي. وعلى الرغم من بساطة هذه التعديلات، نجد أن Jigsaw-ViT قادر على تحسين كلا من التعميم والمتانة (robustness) مقارنةً بـ ViT القياسي، وهو ما يُعد عادةً تنازلاً بين الاثنين. من الناحية التجريبية، نُظهر أن إضافة فرع حل ألغاز القطع يوفر تعميمًا أفضل من ViT في تصنيف الصور على نطاق واسع على مجموعة ImageNet. علاوةً على ذلك، تُحسّن المهمة المساعدة من متانة النموذج أمام العلامات الضوضائية في مجموعات Animal-10N وFood-101N وClothing1M، وكذلك أمام الأمثلة المضادة (adversarial examples). يمكن الوصول إلى التنفيذ العملي للنموذج عبر الرابط التالي: https://yingyichen-cyy.github.io/Jigsaw-ViT/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Jigsaw-ViT: تعلّم ألغاز الجigsaw في نموذج التحويل البصري | مستندات | HyperAI