HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات البصرية مع تنويع اللوحات

Chengyue Gong Dilin Wang Meng Li Vikas Chandra Qiang Liu

الملخص

أظهرت نماذج المحولات البصرية (Vision Transformers) أداءً واعدًا في مهام الرؤية الحاسوبية الصعبة. ومع ذلك، قد يؤدي التدريب المباشر على هذه المحولات إلى نتائج غير مستقرة وغير مثلى. واقترح أعمال حديثة تحسين أداء المحولات البصرية من خلال تعديل هياكل المحولات، مثل دمج طبقات التباعد (convolution layers). على النقيض من ذلك، نستكشف نهجًا متعامدًا لاستقرار تدريب المحولات البصرية دون الحاجة إلى تعديل البنية الشبكية. لاحظنا أن سبب عدم الاستقرار في التدريب يعود إلى التشابه الكبير بين تمثيلات القطع المستخرجة. وبشكل أكثر تحديدًا، فإن كتل الانتباه الذاتي في المحولات البصرية العميقة تميل إلى تحويل قطع مختلفة إلى تمثيلات خفية مشابهة، مما يؤدي إلى فقدان المعلومات وتدهور الأداء. ولتخفيف هذه المشكلة، نقدم في هذا العمل دوال خسارة جديدة أثناء تدريب المحولات البصرية، تهدف إلى تشجيع التنوع الصريح بين تمثيلات القطع، بهدف استخراج ميزات أكثر تمييزًا. ونُظهر تجريبيًا أن التقنيات المقترحة تُستقرّ التدريب، وتمكّننا من تدريب محولات بصرية أعرض وأعمق. كما نُظهر أن الميزات المتنوعة تُحدث فرقًا كبيرًا في المهام التالية في التعلم الناقل (transfer learning). وفي مهام التجزئة الدلالية (semantic segmentation)، نُحسّن النتائج القياسية (SOTA) على مجموعتي بيانات Cityscapes وADE20k. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/ChengyueGongR/PatchVisionTransformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp