منذ 17 أيام

DeBiFormer: نموذج رؤية مبني على التحويلة مع انتباه موجه ثنائي المستوى مبني على الوكيل المُنحني

Nguyen Huu Bao Long, Chenyu Zhang, Yuzhi Shi, Tsubasa Hirakawa, Takayoshi Yamashita, Tohgoroh Matsui, Hironobu Fujiyoshi

عرض تفاصيل الورقة البحثية

DeBiFormer: نموذج رؤية مبني على التحويلة مع انتباه موجه ثنائي المستوى مبني على الوكيل المُنحني

الملخص

أظهرت نماذج الرؤية المبنية على المحولات (Vision Transformers) ذات وحدات الانتباه المتنوعة أداءً متميزًا في المهام المرتبطة بالرؤية الحاسوبية. وعلى الرغم من أن استخدام انتباه مُتكيف مع الندرة (sparsity-adaptive attention)، مثل ما هو موجود في نموذج DAT، قد أدى إلى نتائج قوية في تصنيف الصور، فإن أزواج المفاتيح والقيم (key-value pairs) التي تُختار بواسطة النقاط القابلة للانحناء (deformable points) تفتقر إلى الصلة الدلالية عند التخصيص (fine-tuning) لمهمات التصنيف الدلالي (semantic segmentation). أما الانتباه المُتكيف مع الاستشعار بالاستعلام (query-aware sparsity attention) في BiFormer، فيهدف إلى تركيز كل استعلام على المناطق المُوجَّهة إلى أعلى k. ومع ذلك، أثناء حساب الانتباه، تتأثر أزواج المفاتيح والقيم المختارة بعدد كبير من الاستعلامات غير ذات الصلة، مما يقلل من تركيز الانتباه على تلك الأهمية القصوى. لمعالجة هذه المشكلات، نقترح وحدة الانتباه القابلة للانحناء ذات التوجيه ثنائي المستويات (Deformable Bi-level Routing Attention - DBRA)، التي تحسّن اختيار أزواج المفاتيح والقيم باستخدام استعلامات الوكلاء (agent queries)، وتعزز شفافية الاستعلامات في خرائط الانتباه. بناءً على هذه الوحدة، نقدّم نموذج المحول القابل للانحناء ذات التوجيه ثنائي المستويات (Deformable Bi-level Routing Attention Transformer - DeBiFormer)، وهو محول رؤية عام جديد مبني على وحدة DBRA. وقد تم التحقق من فعالية DeBiFormer في مجموعة متنوعة من مهام الرؤية الحاسوبية، بما في ذلك تصنيف الصور، كشف الكائنات، والتصنيف الدلالي، مما يقدّم أدلة قوية على كفاءته. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: {https://github.com/maclong01/DeBiFormer}