HyperAIHyperAI
منذ 11 أيام

عندما تلتقي الشبكات العصبية التلافيفية بالشبكات العصبية التلافيفية العشوائية: نحو تحليل متعدد المستويات للتعرف على الأجسام والمشاهد باللونين RGB-D

Ali Caglayan, Nevrez Imamoglu, Ahmet Burak Can, Ryosuke Nakamura
عندما تلتقي الشبكات العصبية التلافيفية بالشبكات العصبية التلافيفية العشوائية: نحو تحليل متعدد المستويات للتعرف على الأجسام والمشاهد باللونين RGB-D
الملخص

تمييز الأجسام والمشاهد يُعدان مهمتين صعبتين لكنهما ضروريتين في فهم الصور. وبشكل خاص، أصبح استخدام أجهزة الاستشعار RGB-D في التعامل مع هذه المهام مجالًا رئيسيًا للتركيز من أجل تحسين الفهم البصري. وفي الوقت نفسه، أصبحت الشبكات العصبية العميقة، وخاصة الشبكات العصبية التلافيفية (CNN)، شائعة جدًا، وتم تطبيقها على العديد من المهام البصرية من خلال استبدال السمات اليدوية الصنع بسمات عميقة فعالة. ومع ذلك، لا يزال يُعدّ مسألة مفتوحة كيفية استغلال السمات العميقة الناتجة عن نموذج CNN متعدد الطبقات بشكل فعّال. في هذه الورقة، نقترح إطارًا جديدًا مكوّنًا من مرحلتين، يُستخرج من خلاله تمثيلات سمات تمييزية من صور RGB-D متعددة الوسائط لمهام تمييز الأجسام والمشاهد. في المرحلة الأولى، تم استخدام نموذج CNN مُدرّب مسبقًا كهيكل أساسي لاستخراج السمات البصرية على مستويات متعددة. أما في المرحلة الثانية، فيتم تحويل هذه السمات إلى تمثيلات عالية المستوى باستخدام بنية عشوائية كاملة من الشبكات العصبية التكرارية (RNN) بشكل فعّال. وللتعامل مع البُعد العالي لتنشيطات CNN، تم اقتراح خطة تجميع عشوائية موزونة، وذلك بتوسيع فكرة العشوائية المُطبقة في الشبكات RNN. كما تم تنفيذ دمج الوسائط المتعددة من خلال نهج تصويت لطيف، حيث يتم حساب الأوزان بناءً على درجات الثقة في التمييز الفردي (أي درجات SVM) الخاصة بتيارات RGB وعمق بشكل منفصل. وهذا يؤدي إلى تقدير متسق للوسوم الفئوية في الأداء النهائي لتصنيف RGB-D. وتحقق التجارب الواسعة من أن البنية العشوائية الكاملة في المرحلة الثانية نجحت في ترميز تنبيهات CNN إلى سمات قوية تمييزية. وتُظهر النتائج التجريبية المقارنة على مجموعتي بيانات شهيرتين، وهما Washington RGB-D Object وSUN RGB-D Scene، أن النهج المقترح يحقق أداءً متفوقًا أو مماثلًا لأفضل الطرق الحالية في كلا المهمتين: تمييز الأجسام والمشاهد. يتوفر الكود على الرابط: https://github.com/acaglayan/CNN_randRNN.

عندما تلتقي الشبكات العصبية التلافيفية بالشبكات العصبية التلافيفية العشوائية: نحو تحليل متعدد المستويات للتعرف على الأجسام والمشاهد باللونين RGB-D | أحدث الأوراق البحثية | HyperAI