HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التفكير في ترميز الموضع النسبي وتحسينه لنموذج التحويل البصري

Kan Wu Houwen Peng Minghao Chen Jianlong Fu Hongyang Chao

الملخص

يُعد ترميز الموضع النسبي (RPE) أمرًا مهمًا في نماذج الترانسفورمر لالتقاط ترتيب التسلسل للرموز المدخلة. وقد تم إثبات فعاليته بشكل عام في معالجة اللغة الطبيعية. ومع ذلك، فإن فعاليته في مجال الرؤية الحاسوبية لم تُدرس بشكل كافٍ، بل تظل موضع جدل، مثل السؤال حول ما إذا كان يمكن لتشفير الموضع النسبي أن يعمل بنفس الكفاءة التي يعمل بها تشفير الموضع المطلق. ولتوضيح هذا الأمر، نبدأ أولًا بمراجعة الطرق الحالية لتشفير الموضع النسبي، ونحلل مزاياها وعيوبها عند تطبيقها في نماذج الترانسفورمر للرؤية. ثم نقترح طرقًا جديدة لتشفير الموضع النسبي مخصصة للصور ثنائية الأبعاد، تُعرف باسم تشفير الموضع النسبي للصورة (iRPE). وتُراعي هذه الطرق نموذج المسافة النسبية الاتجاهية، فضلًا عن التفاعلات بين الاستفسارات (queries) وتمثيلات الموضع النسبي في آلية الانتباه الذاتي. وتمتاز طرق iRPE المقترحة بالبساطة والخفّة، ويمكن دمجها بسهولة في كتل الترانسفورمر. وتبين النتائج التجريبية أن مجرد استخدام هذه الطرق المُقترحة يُحدث تحسينات مستقرة تصل إلى 1.5% (دقة الدرجة الأولى) و1.3% (متوسط الدقة المُعَمّم - mAP) على التوالي في مجموعتي بيانات ImageNet وCOCO، مقارنة بالإصدارات الأصلية لـ DeiT وDETR، دون الحاجة إلى تعديل أي معاملات إضافية مثل معدل التعلم أو معامل التخفيف (weight decay). كما أدى التحليل التجريبي والتحليلي إلى اكتشافات مثيرة للاهتمام، بعضها يتعارض مع الفهم السابق. تم إتاحة الكود والنماذج المصدرية على الرابط التالي: https://github.com/microsoft/Cream/tree/main/iRPE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp