التمييز الدلالي متعدد الوسائط بكفاءة عبر التعلم الثنائي-الموجه

الدمج متعدد الوسائط (مثل RGB-عمق / RGB-حراري) أظهر إمكانات كبيرة في تحسين التقطيع الدلالي للمناظر المعقدة (مثل المناظر الداخلية / الظروف ذات الإضاءة المنخفضة). غالبًا ما تقوم النهج الحالية بضبط كامل لشبكة مُشفر-مُفكك ذات فروع مزدوجة مع استراتيجية دمج معقدة للميزات لتحقيق التقطيع الدلالي متعدد الوسائط، مما يجعلها باهظة الثمن من حيث التدريب بسبب تحديثات المعلمات الضخمة في استخراج الميزات ودمجها. لحل هذه المشكلة، نقترح شبكة تعلم موجهات ثنائية بسيطة ومعيبة بشكل مدهش (تُعرف باسم DPLNet) لتحقيق تقطيع دلالي متعدد الوسائط بكفاءة عالية في التدريب (مثل RGB-D / T). جوهر DPLNet يتمثل في تكييف نموذج RGB مدرب مسبقًا ومجمد مباشرة للتقطيع الدلالي متعدد الوسائط، مما يقلل من تحديثات المعلمات. لهذا الغرض، نقدم وحدتين لتعلم الموجهات، وهما مولد الموجهات المتعددة الوسائط (MPG) والمتكيف بالميزات المتعددة الوسائط (MFA). يعمل MPG على دمج الميزات من وسائط مختلفة بطريقة مضغوطة ويتم إدخاله من المراحل الخفية إلى العميقة لتوليد الرسائل المتعددة الوسائط متعددة المستويات التي يتم حقنها في الهيكل الأساسي المجمد، بينما يعمل MFA على تكيف الميزات المتعددة الوسائط المستوحاة في الهيكل الأساسي المجمد لتحقيق تقطيع دلالي متعدد الوسائط أفضل. بما أن كل من MPG و MFA خفيف الوزن، يتم تقديم عدد قليل فقط من المعلمات القابلة للتدريب (3.88 مليون، أو 4.4٪ من معلمات الهيكل الأساسي المدرب مسبقًا) لدمج وتعلم الميزات المتعددة الوسائط. باستخدام محودث بسيط (3.27 مليون معلمة)، يحقق DPLNet أداءً جديدًا يتفوق على الأداء الحالي أو يكون على قدم وكتف مع النماذج الأخرى الأكثر تعقيدًا في أربع قواعد بيانات للتقطيع الدلالي RGB-D / T بينما يحقق كفاءة عالية في استخدام المعلمات. بالإضافة إلى ذلك، نوضح أن DPLNet عام ويمكن تطبيقه على مهمّات متعددة الوسائط أخرى مثل اكتشاف الكائن البارز وتقطيع الفيديو دلالياً. بدون تصميم خاص، يتخطى DPLNet العديد من النماذج المعقدة. سيتم توفير رمزنا المصدر على github.com/ShaohuaDong2021/DPLNet.请注意,这里的“محودث”是一个直译,通常在科技文献中会使用“解码器”。因此,更合适的翻译应该是:باستخدام مفكك بسيط (3.27 مليون معلمة)، يحقق DPLNet أداءً جديدًا يتفوق على الأداء الحالي أو يكون على قدم وكتف مع النماذج الأخرى الأكثر تعقيدًا في أربع قواعد بيانات للتقطيع الدلالي RGB-D / T بينما يحقق كفاءة عالية في استخدام المعلمات.