HyperAIHyperAI
منذ 17 أيام

المحولات البصرية مع تنويع اللوحات

Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu
المحولات البصرية مع تنويع اللوحات
الملخص

أظهرت نماذج المحولات البصرية (Vision Transformers) أداءً واعدًا في مهام الرؤية الحاسوبية الصعبة. ومع ذلك، قد يؤدي التدريب المباشر على هذه المحولات إلى نتائج غير مستقرة وغير مثلى. واقترح أعمال حديثة تحسين أداء المحولات البصرية من خلال تعديل هياكل المحولات، مثل دمج طبقات التباعد (convolution layers). على النقيض من ذلك، نستكشف نهجًا متعامدًا لاستقرار تدريب المحولات البصرية دون الحاجة إلى تعديل البنية الشبكية. لاحظنا أن سبب عدم الاستقرار في التدريب يعود إلى التشابه الكبير بين تمثيلات القطع المستخرجة. وبشكل أكثر تحديدًا، فإن كتل الانتباه الذاتي في المحولات البصرية العميقة تميل إلى تحويل قطع مختلفة إلى تمثيلات خفية مشابهة، مما يؤدي إلى فقدان المعلومات وتدهور الأداء. ولتخفيف هذه المشكلة، نقدم في هذا العمل دوال خسارة جديدة أثناء تدريب المحولات البصرية، تهدف إلى تشجيع التنوع الصريح بين تمثيلات القطع، بهدف استخراج ميزات أكثر تمييزًا. ونُظهر تجريبيًا أن التقنيات المقترحة تُستقرّ التدريب، وتمكّننا من تدريب محولات بصرية أعرض وأعمق. كما نُظهر أن الميزات المتنوعة تُحدث فرقًا كبيرًا في المهام التالية في التعلم الناقل (transfer learning). وفي مهام التجزئة الدلالية (semantic segmentation)، نُحسّن النتائج القياسية (SOTA) على مجموعتي بيانات Cityscapes وADE20k. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/ChengyueGongR/PatchVisionTransformer.