شيلفنت للتقسيم الدلالي السريع

في هذا البحث، نقدم ShelfNet، وهي هندسة معمارية جديدة لتحقيق تقسيم دلالي دقيق وسريع. على عكس البنية المكونة من مشفّر واحد ومفكّك واحد، يحتوي ShelfNet على عدة أزواج من فروع المشفّر والمفكّك مع اتصالات تخطي عند كل مستوى فضائي، مما يبدو وكأنه رف به أعمدة متعددة. يمكن اعتبار البنيان الرفوفي كمجموعة من المسارات العميقة والسطحية المتعددة، مما يحسن الدقة. لقد خفضنا بشكل كبير العبء الحسابي عن طريق تقليل عدد القنوات، وفي الوقت نفسه حققنا دقة عالية باستخدام هذه البنيان الفريد. بالإضافة إلى ذلك، نقترح استراتيجية وزن مشترك في الكتلة الباقية (residual block) التي تقلل من عدد المعلمات دون التضحية بالأداء. عند مقارنتها بالطرق غير الفورية الشائعة مثل PSPNet، فإن ShelfNet الخاصة بنا تحقق سرعة استدلال أسرع بأربع مرات مع دقة مماثلة على مجموعة بيانات PASCAL VOC. عند مقارنتها بنماذج التقسيم الفوري مثل BiSeNet، فإن نموذجنا يحقق دقة أعلى بمعدل سرعة مماثل على مجموعة بيانات Cityscapes، مما يتيح استخدامه في المهام التي تتطلب سرعة عالية مثل فهم المشاهد الشارعية للقيادة الذاتية. علاوة على ذلك، حققت ShelfNet الخاصة بنا نسبة mIoU قدرها 79.0٪ على مجموعة بيانات Cityscapes باستخدام هيكل ResNet34 الأساسي، مما يتفوق على PSPNet وBiSeNet باستخدام هيكل ResNet101 الأساسي الأكبر حجمًا. من خلال التجارب الواسعة، قدمنا أدلة على الأداء المتفوق لـ ShelfNet. نوفر رابطًا لتنفيذ النموذج: \url{https://github.com/juntang-zhuang/ShelfNet-lw-cityscapes}.