X-volution: حول الاتحاد بين التصفية التبادلية والانتباه الذاتي

تُعد التباديل (Convolution) والانتباه الذاتي (self-attention) عنصرين أساسيين في بناء الشبكات العصبية العميقة، حيث يستخرج الأول ميزات صورة محلية بطريقة خطية، بينما يُشفّر الثاني العلاقات السياقية ذات الرتبة العالية بشكل غير موضعي. وعلى الرغم من أن كليهما متكاملان جوهريًا – أي من حيث الرتبة الأولى والرتبة العالية – إلا أن المعمارية الحديثة المتطورة، مثل الشبكات العصبية التلافيفية (CNNs) أو المحولات (Transformers)، تفتقر إلى طريقة مبدأية لتطبيق كليهما معًا في وحدة حسابية واحدة، وذلك بسبب اختلاف أنماط الحوسبة بينهما، بالإضافة إلى العبء الكبير الناتج عن عملية الضرب النقطي العالمي في المهام البصرية. في هذا العمل، نُشَقّ نظريًا خطة تقريبية للانتباه الذاتي العالمي، والتي تُقرب الانتباه الذاتي من خلال عملية التبديل على ميزات مُحوّلة. استنادًا إلى هذه الخطة المُقربة، نُنشئ وحدة أساسية متعددة الفروع مكوّنة من عمليتي التبديل والانتباه الذاتي معًا، قادرة على دمج التفاعل المحلي وغير المحلي للميزات. وبشكل مهم، بمجرد التدريب، يمكن تحويل هذه الوحدة متعددة الفروع بشكل شرطي إلى عملية تبديل قياسية واحدة من خلال إعادة هيكلة هيكلية، مما يُنتج عاملًا بسيطًا مبنيًا بالكامل على التبديل يُسمى X-volution، جاهزًا للإدخال في أي شبكة حديثة كعملية أساسية. تُظهر التجارب الواسعة أن X-volution المقترح تحقق تحسينات قوية في فهم الرؤية (+1.2% دقة أعلى في التصنيف على ImageNet، و+1.7 نقطة AP للصندوق و+1.5 نقطة AP للقناع على مهمة كشف وتقسيم COCO).