إعادة التفكير في ترميز الموضع النسبي وتحسينه لنموذج التحويل البصري

يُعد ترميز الموضع النسبي (RPE) أمرًا مهمًا في نماذج الترانسفورمر لالتقاط ترتيب التسلسل للرموز المدخلة. وقد تم إثبات فعاليته بشكل عام في معالجة اللغة الطبيعية. ومع ذلك، فإن فعاليته في مجال الرؤية الحاسوبية لم تُدرس بشكل كافٍ، بل تظل موضع جدل، مثل السؤال حول ما إذا كان يمكن لتشفير الموضع النسبي أن يعمل بنفس الكفاءة التي يعمل بها تشفير الموضع المطلق. ولتوضيح هذا الأمر، نبدأ أولًا بمراجعة الطرق الحالية لتشفير الموضع النسبي، ونحلل مزاياها وعيوبها عند تطبيقها في نماذج الترانسفورمر للرؤية. ثم نقترح طرقًا جديدة لتشفير الموضع النسبي مخصصة للصور ثنائية الأبعاد، تُعرف باسم تشفير الموضع النسبي للصورة (iRPE). وتُراعي هذه الطرق نموذج المسافة النسبية الاتجاهية، فضلًا عن التفاعلات بين الاستفسارات (queries) وتمثيلات الموضع النسبي في آلية الانتباه الذاتي. وتمتاز طرق iRPE المقترحة بالبساطة والخفّة، ويمكن دمجها بسهولة في كتل الترانسفورمر. وتبين النتائج التجريبية أن مجرد استخدام هذه الطرق المُقترحة يُحدث تحسينات مستقرة تصل إلى 1.5% (دقة الدرجة الأولى) و1.3% (متوسط الدقة المُعَمّم - mAP) على التوالي في مجموعتي بيانات ImageNet وCOCO، مقارنة بالإصدارات الأصلية لـ DeiT وDETR، دون الحاجة إلى تعديل أي معاملات إضافية مثل معدل التعلم أو معامل التخفيف (weight decay). كما أدى التحليل التجريبي والتحليلي إلى اكتشافات مثيرة للاهتمام، بعضها يتعارض مع الفهم السابق. تم إتاحة الكود والنماذج المصدرية على الرابط التالي: https://github.com/microsoft/Cream/tree/main/iRPE.