HyperAIHyperAI
منذ 17 أيام

دمج الأحداث والإطارات باستخدام الشبكات متعددة الوسائط المتزامنة المتكررة للتنبؤ بالعمق من منظور واحد

Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza
دمج الأحداث والإطارات باستخدام الشبكات متعددة الوسائط المتزامنة المتكررة للتنبؤ بالعمق من منظور واحد
الملخص

الكاميرات الحدثية هي مستشعرات رؤية جديدة تُبلغ عن تغيرات السطوع لكل بكسل كتدفق من "الحوادث" غير المتزامنة. وتتميز بفوائد كبيرة مقارنة بالكاميرات القياسية بفضل دقتها الزمنية العالية، ونطاقها الديناميكي العالي، وغياب تشويش الحركة. ومع ذلك، فإن الحوادث تقيس فقط المكون المتغير في الإشارة البصرية، مما يحد من قدرتها على ترميز السياق المكاني للمنظر. في المقابل، تقيس الكاميرات القياسية إطارات شدة مطلقة، والتي تلتقط تمثيلاً أكثر ثراءً للمنظر. وبالتالي، تكون هاتان النوعان من المستشعرات مكملتين لبعضهما. لكن بسبب الطبيعة غير المتزامنة للحوادث، يظل دمجها مع الصور المتزامنة تحدياً كبيراً، خصوصاً في الأساليب القائمة على التعلم. وذلك لأن الشبكات العصبية التكرارية التقليدية (RNNs) لم تُصمم لمعالجة البيانات غير المتزامنة وغير المنتظمة القادمة من مستشعرات إضافية. ولحل هذا التحدي، نقدّم شبكات RAM (RNNs التكرارية غير المتزامنة متعددة الوسائط)، التي تعمّم الشبكات العصبية التكرارية التقليدية لمعالجة البيانات غير المتزامنة وغير المنتظمة القادمة من عدة مستشعرات. مستوحاة من الشبكات العصبية التكرارية التقليدية، تحتفظ شبكات RAM بحالة خفية تُحدّث بشكل غير متزامن ويمكن استرجاعها في أي وقت لإنتاج تنبؤ. ونطبّق هذه البنية المبتكرة على تقدير العمق الأحادي باستخدام الحوادث والإطارات، حيث نُظهر تحسناً بنسبة تصل إلى 30٪ مقارنة بالأساليب الحالية في مجال الدقة المتوسطة المطلقة للعمق. ولتمكين أبحاث إضافية في التعلم متعدد الوسائط باستخدام الحوادث، نُطلق مجموعة بيانات جديدة تُسمى EventScape، التي تحتوي على حوادث، وإطارات شدة، وملصقات معنوية، وخرائط عمق تم تسجيلها في محاكي CARLA.

دمج الأحداث والإطارات باستخدام الشبكات متعددة الوسائط المتزامنة المتكررة للتنبؤ بالعمق من منظور واحد | أحدث الأوراق البحثية | HyperAI