منذ 2 أشهر

شبكة سيامي للكشف عن الأشياء البارزة في صور RGB-D وما بعدها

Keren Fu; Deng-Ping Fan; Ge-Peng Ji; Qijun Zhao; Jianbing Shen; Ce Zhu

الملخص

النماذج الحالية للكشف عن الأشياء البارزة باستخدام الصور ثلاثية الأبعاد باللون والعمق (RGB-D SOD) تتعامل عادةً مع معلومات اللون والعمق كمعلومتين مستقلتين وتقوم بتصميم شبكات منفصلة لاستخراج الميزات من كل منهما. يمكن أن تكون مثل هذه الخطط مقيدة بسهولة بسبب نقص في بيانات التدريب أو الاعتماد الزائد على عملية تدريب مصممة بدقة. مستوحاةً من الملاحظة بأن موديلات اللون والعمق تظهر في الواقع بعض الشيء المشترك في تمييز الأشياء البارزة، تم تصميم هندسة جديدة للتعلم المشترك والدمج التعاوني الكثيف (JL-DCF) لتعلم المعلومات من مدخلات اللون والعمق عبر هيكل شبكة مشترك، المعروف بهيكل الشبكة السامية (Siamese architecture). في هذا البحث، نقترح مكونين فعّالين: التعلم المشترك (JL)، والدمج التعاوني الكثيف (DCF). يوفر وحدة التعلم المشترك (JL) تعلمًا قويًا للميزات البارزة باستغلال الشبه بين الموديلات المختلفة عبر شبكة سامية، بينما تم تقديم وحدة الدمج التعاوني الكثيف (DCF) لاكتشاف الميزات المكملة. أظهرت التجارب الشاملة باستخدام خمس مقاييس شائعة أن الإطار المصمم ينتج كاشفًا قويًا للأشياء البارزة RGB-D مع تعميم جيد. نتيجة لذلك، حققت JL-DCF تقدمًا كبيرًا على النماذج الرائدة حاليًا بمتوسط نسبة ~2.0٪ (أقصى قيمة F-measure) عبر سبعة مجموعات بيانات صعبة. بالإضافة إلى ذلك، نوضح أن JL-DCF يمكن تطبيقها بسهولة على مهمات اكتشاف متعددة الوسائط ذات صلة أخرى، بما في ذلك الكشف عن الأشياء البارزة RGB-T (الأشعة تحت الحمراء الحرارية) والكشف عن الأشياء البارزة في الفيديو، مما يؤدي إلى تحقيق أداء مكافئ أو حتى أفضل مقابل الأساليب الرائدة. كما ربطنا JL-DCF بمجال تقسيم الصور ثلاثية الأبعاد باللون والعمق إلى فئات دلالية (RGB-D semantic segmentation)، وأظهرنا قدرتها على تفوق عدة نماذج تقسيم دلالي في مهمة الكشف عن الأشياء البارزة RGB-D. هذه الحقائق تؤكد بشكل أكبر أن الإطار المقترح يمكن أن يقدم حلًا محتملاً لمجموعة متنوعة من التطبيقات ويقدم المزيد من الرؤية حول مهمة التكامل بين الوسائط المتعددة.