دمج الأحداث والإطارات باستخدام الشبكات متعددة الوسائط المتزامنة المتكررة للتنبؤ بالعمق من منظور واحد

الكاميرات الحدثية هي مستشعرات رؤية جديدة تُبلغ عن تغيرات السطوع لكل بكسل كتدفق من "الحوادث" غير المتزامنة. وتتميز بفوائد كبيرة مقارنة بالكاميرات القياسية بفضل دقتها الزمنية العالية، ونطاقها الديناميكي العالي، وغياب تشويش الحركة. ومع ذلك، فإن الحوادث تقيس فقط المكون المتغير في الإشارة البصرية، مما يحد من قدرتها على ترميز السياق المكاني للمنظر. في المقابل، تقيس الكاميرات القياسية إطارات شدة مطلقة، والتي تلتقط تمثيلاً أكثر ثراءً للمنظر. وبالتالي، تكون هاتان النوعان من المستشعرات مكملتين لبعضهما. لكن بسبب الطبيعة غير المتزامنة للحوادث، يظل دمجها مع الصور المتزامنة تحدياً كبيراً، خصوصاً في الأساليب القائمة على التعلم. وذلك لأن الشبكات العصبية التكرارية التقليدية (RNNs) لم تُصمم لمعالجة البيانات غير المتزامنة وغير المنتظمة القادمة من مستشعرات إضافية. ولحل هذا التحدي، نقدّم شبكات RAM (RNNs التكرارية غير المتزامنة متعددة الوسائط)، التي تعمّم الشبكات العصبية التكرارية التقليدية لمعالجة البيانات غير المتزامنة وغير المنتظمة القادمة من عدة مستشعرات. مستوحاة من الشبكات العصبية التكرارية التقليدية، تحتفظ شبكات RAM بحالة خفية تُحدّث بشكل غير متزامن ويمكن استرجاعها في أي وقت لإنتاج تنبؤ. ونطبّق هذه البنية المبتكرة على تقدير العمق الأحادي باستخدام الحوادث والإطارات، حيث نُظهر تحسناً بنسبة تصل إلى 30٪ مقارنة بالأساليب الحالية في مجال الدقة المتوسطة المطلقة للعمق. ولتمكين أبحاث إضافية في التعلم متعدد الوسائط باستخدام الحوادث، نُطلق مجموعة بيانات جديدة تُسمى EventScape، التي تحتوي على حوادث، وإطارات شدة، وملصقات معنوية، وخرائط عمق تم تسجيلها في محاكي CARLA.