ViTAEv2: نموذج التحويل البصري المُحسَّن من خلال استكشاف الانحياز الاستقرائي للتعرف على الصور وخلافه

أظهرت نماذج المحولات البصرية (Vision Transformers) إمكانات كبيرة في مجموعة متنوعة من مهام الرؤية الحاسوبية بفضل قدرتها القوية على نمذجة الاعتماد الطويل المدى باستخدام آلية الانتباه الذاتي. ومع ذلك، فإنها تعامل الصورة كسلسلة أحادية البعد من الرموز البصرية، مما يفتقر إلى ميزة استدلالية داخلية (Inductive Bias - IB) في نمذجة الهياكل البصرية المحلية ومعالجة التغير في الحجم، وهي ميزة تُتعلم بشكل ضمني من خلال بيانات تدريب واسعة النطاق وبفترة تدريب طويلة. في هذا البحث، نقترح نموذجًا مُحسَّنًا لمحولات البصرية يُسمى ViTAE، والذي يستفيد من الميزة الاستدلالية الداخلية المستمدة من العمليات التلافيفية (convolutions). من الناحية التقنية، يحتوي ViTAE على عدة وحدات تقليل هرمية فضائية لتقليل حجم الصورة الأصلية وتحويلها إلى رموز غنية بالسياق متعدد المقاييس باستخدام عمليات تلافيفية متعددة بدرجات تمدد مختلفة. وبهذه الطريقة، يكتسب نموذج ViTAE ميزة استدلالية داخلية تجاه التحويلات المقياسية (scale invariance IB)، ويمكنه تعلُّم تمثيلات مميزة قوية للكائنات بمقاييس متفاوتة. علاوةً على ذلك، في كل طبقة من المحولات، يحتوي ViTAE على وحدة تلافيفية تعمل بالتوازي مع وحدة الانتباه الذاتي متعدد الرؤوس، حيث تُدمج مخرجات هذه الوحدة مع مخرجات الانتباه الذاتي وتدخل إلى الشبكة التغذوية الأمامية. ونتيجة لذلك، يمتلك النموذج ميزة استدلالية داخلية للاتصال المحلي (locality IB)، ويُمكنه تعلُّم الميزات المحلية والاعتماديات العالمية بشكل تعاوني. تم تجميع النوعين المُقترحين من الوحدات (cells) بطرق متعددة، سواء بأسلوب متماثل (isotropic) أو متعدد المراحل (multi-stage)، لتكوين عائلتين من نماذج ViTAE، وهما ViTAE الأصلي وViTAEv2. وقد أثبتت التجارب على مجموعة بيانات ImageNet، فضلاً عن المهام التطبيقية على مجموعات بيانات MS COCO، ADE20K، وAP10K، تفوق نماذجنا على النماذج الأساسية للمحولات والمنافسين الحاليين. بالإضافة إلى ذلك، قمنا بتوسيع نموذج ViTAE ليصل إلى 644 مليون معلمة، وحققنا أداءً متميزًا في التصنيف، حيث بلغت دقة التصنيف الأولى (Top-1) 88.5% على مجموعة بيانات ImageNet التحققية، وأفضل دقة بلغت 91.2% على مجموعة بيانات ImageNet الحقيقية للتحقق، دون استخدام أي بيانات خاصة إضافية.