XCiT: المحولات الصورية للتغاير المتقاطع

بعد نجاح نماذج التحويل (Transformers) في معالجة اللغة الطبيعية، أظهرت مؤخرًا إمكانات كبيرة في مجال الرؤية الحاسوبية. تُعد عملية الانتباه الذاتي (self-attention) التي تقوم عليها نماذج التحويل مسؤولة عن التفاعلات العالمية بين جميع الرموز (أي الكلمات أو شرائح الصور)، مما يمكّن من نمذجة بيانات الصور بمرنة أكبر من التفاعلات المحلية التي توفرها التحويلات التلافيفية (convolutions). ومع ذلك، فإن هذه المرونة تأتي على حساب تعقيد زمني وذاكرة تربيعية، ما يعيق تطبيقها على التسلسلات الطويلة والصور ذات الدقة العالية. نقترح نسخة "معكوسة" (transposed) لعملية الانتباه الذاتي، تعمل عبر قنوات الميزات بدلًا من الرموز، حيث تقوم التفاعلات على مصفوفة التغاير المتبادل (cross-covariance) بين المفاتيح (keys) والأسئلة (queries). ويُعرف الناتج بانتباه التغاير المتبادل (XCA)، الذي يتميز بتعقيد خطي بالنسبة لعدد الرموز، ويسمح بمعالجة فعّالة للصور عالية الدقة. تم بناء نموذج التحويل الصوتي المبني على التغاير المتبادل (XCiT) على أساس XCA. ويجمع هذا النموذج بين دقة النماذج التقليدية للتحويل وقابلية التوسع المميزة للهياكل التلافيفية. ونُثبت فعالية وعامة نموذج XCiT من خلال عرض نتائج ممتازة على عدة معايير في مجال الرؤية الحاسوبية، بما في ذلك تصنيف الصور والتعلم التلقائي للميزات على ImageNet-1k، وتحديد الكائنات والتقسيم المثالي للكائنات على COCO، والتقسيم الدلالي على ADE20k.