Command Palette
Search for a command to run...
RTFormer: تصميم فعال للتقسيم الدلالي في الوقت الحقيقي باستخدام الترانسفورمر
RTFormer: تصميم فعال للتقسيم الدلالي في الوقت الحقيقي باستخدام الترانسفورمر
Jian Wang1∗ Chenhui Gou2∗ Qiman Wu1∗ Haocheng Feng1 Junyu Han1 Errui Ding1 Jingdong Wang1†
الملخص
في الآونة الأخيرة، أظهرت الشبكات المستندة إلى الترانسفورمر نتائج مثيرة للإعجاب في تقسيم المعنى (semantic segmentation). ومع ذلك، بالنسبة لتقسيم المعنى في الوقت الحقيقي، لا تزال النماذج المستندة بشكل كامل إلى CNN تهيمن على هذا المجال بسبب آلية الحساب المكلفة زمنيًا في الترانسفورمر. نقترح RTFormer، وهو ترانسفورمر ذو دقة مزدوجة فعال لتقسيم المعنى في الوقت الحقيقي، والذي يحقق توازنًا أفضل بين الأداء والكفاءة مقارنة بنماذج CNN. لتحقيق كفاءة استدلال عالية على أجهزة مثل GPU، يستخدم RTFormer انتباهًا صديقًا للـGPU بتعقيد خطي ويتخلى عن آلية الرؤوس المتعددة (multi-head mechanism). بالإضافة إلى ذلك، وجدنا أن الانتباه عبر الدقة يكون أكثر كفاءة في جمع المعلومات السياقية العالمية لفرع الدقة العالية من خلال نشر المعرفة المرتفعة المستوى التي تم تعلمها من فرع الدقة المنخفضة. أثبتت التجارب الواسعة على مقاييس الأداء الرئيسية فعالية RTFormer المقترح لدينا، حيث حقق أفضل النتائج الحالية على Cityscapes وCamVid وCOCOStuff وأظهر نتائج واعدة على ADE20K. يمكن الوصول إلى الكود في PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.