HyperAIHyperAI
منذ 20 أيام

شبكة ميزة متسلسلة للتقسيم الدلالي للصور RGB-D

{Pheng-Ann Heng, Daniel Cohen-Or, Hui Huang, Di Lin, Guangyong Chen}
شبكة ميزة متسلسلة للتقسيم الدلالي للصور RGB-D
الملخص

تم تطبيق الشبكة التلافيفية الكاملة (FCN) بنجاح في التجزئة الدلالية للمناظر الممثلة باستخدام صور RGB. توفر الصور المُحسَّنة بقنوات العمق فهماً أعمق للمعلومات الهندسية للمنظر في الصورة. والسؤال هو: كيف يمكن الاستفادة الأمثل من هذه المعلومات الإضافية لتحسين أداء التجزئة؟ في هذا البحث، نقدّم شبكة عصبية ذات فروع متعددة لتجزئة الصور RGB-D. يعتمد نهجنا على استخدام العمق المتاح لتقسيم الصورة إلى طبقات تمتلك خصائص بصرية مشتركة للكائنات/المناظر، أو ما يُعرف بـ"دقة المنظر" المشتركة. ونُقدّم ما يُسمى بحقل الاستقبال الواعي بالسياق (CaRF)، الذي يوفر تحكّماً أفضل في المعلومات السياقية ذات الصلة بالسمات المُتعلّمة. وباستخدام CaRF، تقوم كل فرع من فروع الشبكة بتجزئة دلالية للمناظر ذات دقة منظر متشابهة، مما يؤدي إلى مجال تعلّم أكثر تركيزاً، وبالتالي يصبح أسهل في التعلّم. علاوةً على ذلك، تُستخدم الشبكة بأسلوب متسلسل (كاسكاد)، حيث تُعزّز ميزات فرع واحد ميزات الفرع المجاور. نُظهر أن هذا التسلسل في تبادل الميزات يُثري المعلومات السياقية لكل فرع، ويعزز الأداء العام للشبكة. ونُثبت أن الدقة التي تحققها شبكتنا تفوق الطرق الرائدة في المجال على مجموعتي بيانات عامتين.

شبكة ميزة متسلسلة للتقسيم الدلالي للصور RGB-D | الأوراق البحثية | HyperAI