BiFormer: نموذج تحويل البصر مع انتباه التوجيه ثنائي المستوى

بصفتها الحجر الأساس في نماذج المحولات البصرية (Vision Transformers)، تمثل الانتباه أداة قوية لالتقاط الاعتماديات على المدى الطويل. ومع ذلك، يأتي هذا القوة بثمن مالي كبير: حيث يفرض عبئًا حسابيًا هائلاً ومساحة ذاكرة كبيرة، نظرًا لحساب التفاعل الزوجي بين الرموز (tokens) عبر جميع المواقع المكانية. حاولت سلسلة من الدراسات تخفيف هذه المشكلة من خلال إدخال نمط ندرة مُصمم مسبقًا وغير مُستنِد إلى المحتوى في عملية الانتباه، مثل تقييد عملية الانتباه داخل نوافذ محلية، أو شرائح محورية، أو نوافذ مُتَبَعَّدة (dilated windows). على عكس هذه النهج، نقترح نموذجًا جديدًا للانتباه النادر الديناميكي من خلال آلية توجيه ثنائية المستويات، مما يتيح تخصيصًا أكثر مرونة للحسابات مع الوعي بالمحتوى. بشكل محدد، يتم أولًا التخلص من أزواج المفاتيح-القيم غير ذات صلة على مستوى إقليمي خشن بالنسبة لاستعلام معين، ثم تُطبَّق عملية الانتباه الدقيقة بين الرموز (token-to-token) داخل الاتحاد للمناطق المرشحة المتبقية (أي المناطق التي تم توجيهها). ونقدّم تنفيذًا بسيطًا وفعّالًا لنموذج الانتباه المبني على التوجيه ثنائي المستويات، والذي يستفيد من الندرة لتوفير كل من الحساب والذاكرة، مع الاحتفاظ بعمليات الضرب المصفوفي الكثيفة المتوافقة مع وحدات معالجة الرسومات (GPU). وباستخدام هذا النموذج الانتباه، تم تقديم نموذج جديد لمحول بصري عام يُسمى BiFormer. وبما أن BiFormer يركز على مجموعة صغيرة من الرموز ذات الصلة بطريقة تتكيف مع الاستعلام، دون تداخل من الرموز غير ذات الصلة، فإنه يتمتع بأداء عالٍ وكفاءة حسابية عالية، خاصة في المهام التي تتطلب التنبؤ الكثيف. وتوصل النتائج التجريبية في عدة مهام رؤية حاسوبية، مثل تصنيف الصور، والكشف عن الكائنات، والترميز الدلالي، إلى تأكيد فعالية تصميمنا. ويمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/rayleizhu/BiFormer}.