HyperSeg: شبكة فائقة قطعة بقطعة للتمييز الدلالي في الوقت الحقيقي

نقدم شبكة جديدة للتمييز الدلالي في الوقت الفعلي، حيث يقوم المُشفِّر (الإنكودر) بترميز البيانات وإنشاء معلمات (الأوزان) المُفكِّك (الديكودر). بالإضافة إلى ذلك، لضمان التكيفية القصوى، تتغير الأوزان في كل كتلة من كتلات الديكودر بشكل مكاني. لهذا الغرض، صممنا نوعًا جديدًا من الشبكات الفائقة، يتكون من U-Net متداخل لاستخراج الخصائص السياقية الأعلى مستوى، ووحدة إنشاء أوزان متعددة الرؤوس تولد أوزان كل كتلة في الديكودر فور استخدامها لتحقيق استغلال ذاكرة فعال، وشبكة رئيسية تتكون من عمليات ت💬volution ديناميكية جديدة على مستوى القطع. رغم استخدام كتل غير تقليدية نسبيًا، فإن هندستنا تحقق أداءً في الوقت الفعلي. فيما يتعلق بالتوازن بين وقت التشغيل والدقة، نتفوق على أفضل النتائج الحالية (SotA) في مقاييس التمييز الدلالي الشهيرة: PASCAL VOC 2012 (مجموعة التحقق)، والتمييز الدلالي في الوقت الفعلي لمدن Cityscapes و CamVid. الكود متاح على الرابط التالي: https://nirkin.com/hyperseg.请注意,这里“动态patch-wise convolutions”被翻译为“عمليات convolution ديناميكية جديدة على مستوى القطع”,因为“patch-wise”在阿拉伯语中没有直接对应的术语,所以采用了这种描述方式来传达其含义。同时,“U-Net”是一个常见的网络架构名称,通常在阿拉伯语文献中也保留英文原名。