ViTAE: نموذج تحويل البصرية المُتقدِّم من خلال استكشاف التحيز الاستقرائي الداخلي

أظهرت نماذج الترانسفورمر إمكانات كبيرة في مهام الرؤية الحاسوبية المتنوعة بفضل قدرتها القوية على نمذجة الاعتماد الطويل المدى باستخدام آلية الانتباه الذاتي. ومع ذلك، فإن نماذج الترانسفورمر للرؤية تعامل الصورة كسلسلة أحادية البعد من الرموز البصرية، مما يفتقر إلى ميزة استدلالية داخلية (IB) في نمذجة الهياكل البصرية المحلية ومعالجة التغير في الحجم. وبديلًا لذلك، تتطلب كميات كبيرة من بيانات التدريب وفترات تدريب أطول لتعلم هذه الميزة الاستدلالية بشكل ضمني. في هذا البحث، نقترح نموذجًا جديدًا لـ Vision Transformer مُحسَّن من خلال استكشاف الميزة الاستدلالية الداخلية المستمدة من التحويلات التلافيفية، أي ViTAE. من الناحية التقنية، يحتوي ViTAE على عدة وحدات تقليل هرمية مكانيّة لتقليل حجم الصورة وتمثيلها برموز غنية بالسياق متعدد المقياس باستخدام تحويلات تلافيفية متعددة بمعدلات تمدد مختلفة. وبهذا، يكتسب ViTAE ميزة استدلالية داخلية تتماشى مع التحول في الحجم، ويكون قادرًا على تعلم تمثيلات مميزة قوية للكائنات عند مقاييس مختلفة. علاوةً على ذلك، في كل طبقة ترانسفورمر، يحتوي ViTAE على وحدة تحويل تلافيفيّة تعمل بالتوازي مع وحدة الانتباه الذاتي متعدد الرؤوس، حيث تُدمج مخرجات هذه الوحدة مع مخرجات الانتباه الذاتي وتُقدَّم إلى الشبكة التغذوية الأمامية. وبذلك، يكتسب نموذج ViTAE ميزة استدلالية داخلية للوضع المحلي، ويكون قادرًا على تعلم الميزات المحلية والاعتمادات العالمية بشكل تعاوني. وقد أثبتت التجارب على ImageNet وكذلك المهام التالية تفوق ViTAE على النموذج الأساسي للترانسفورمر والدراسات المعاصرة. وسيتم إتاحة كود المصدر والنماذج المُدرَّبة مسبقًا على منصة GitHub.