RTFormer: تصميم فعال للتقسيم الدلالي في الوقت الحقيقي باستخدام الترانسفورمر

في الآونة الأخيرة، أظهرت الشبكات المستندة إلى الترانسفورمر نتائج مثيرة للإعجاب في تقسيم المعنى (semantic segmentation). ومع ذلك، بالنسبة لتقسيم المعنى في الوقت الحقيقي، لا تزال النماذج المستندة بشكل كامل إلى CNN تهيمن على هذا المجال بسبب آلية الحساب المكلفة زمنيًا في الترانسفورمر. نقترح RTFormer، وهو ترانسفورمر ذو دقة مزدوجة فعال لتقسيم المعنى في الوقت الحقيقي، والذي يحقق توازنًا أفضل بين الأداء والكفاءة مقارنة بنماذج CNN. لتحقيق كفاءة استدلال عالية على أجهزة مثل GPU، يستخدم RTFormer انتباهًا صديقًا للـGPU بتعقيد خطي ويتخلى عن آلية الرؤوس المتعددة (multi-head mechanism). بالإضافة إلى ذلك، وجدنا أن الانتباه عبر الدقة يكون أكثر كفاءة في جمع المعلومات السياقية العالمية لفرع الدقة العالية من خلال نشر المعرفة المرتفعة المستوى التي تم تعلمها من فرع الدقة المنخفضة. أثبتت التجارب الواسعة على مقاييس الأداء الرئيسية فعالية RTFormer المقترح لدينا، حيث حقق أفضل النتائج الحالية على Cityscapes وCamVid وCOCOStuff وأظهر نتائج واعدة على ADE20K. يمكن الوصول إلى الكود في PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.