HyperAIHyperAI
منذ 16 أيام

مَامو: الاستفادة من الذاكرة والانتباه لتقدير عمق الفيديو أحادي العدسة

Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli
مَامو: الاستفادة من الذاكرة والانتباه لتقدير عمق الفيديو أحادي العدسة
الملخص

نُقدِّم MAMo، وهي إطار عمل جديد للذاكرة والانتباه مُصمم لتقدير عمق الفيديو من صورة واحدة. يُمكن لـ MAMo تعزيز وتحسين أي شبكة لتقدير العمق من صورة واحدة لتصبح نموذجًا لتقدير عمق الفيديو، مما يمكّنها من الاستفادة من المعلومات الزمنية لتوقع عمق أكثر دقة. في إطار MAMo، نُعدّل النموذج بإضافة ذاكرة تُسهم في تحسين توقعات العمق أثناء تدفق النموذج عبر الفيديو. وبشكل محدد، تُخزن الذاكرة الرموز البصرية والرموز التي تمثل الانزياح من اللحظات الزمنية السابقة. وهذا يسمح للشبكة الخاصة بتحديد العمق بالرجوع إلى السمات ذات الصلة من الماضي عند توقع العمق في الإطار الحالي. وقد قدمنا_scheme جديدًا لتحديث الذاكرة بشكل مستمر، بهدف تحسينها بحيث تحتفظ بالرموز التي تتوافق مع المعلومات البصرية من الماضي والحاضر معًا. ونستخدم نهجًا قائمة على الانتباه لمعالجة سمات الذاكرة، حيث نتعلم أولًا العلاقة الفضائية-الزمنية بين الرموز الناتجة من الذاكرة البصرية والانزياحية باستخدام وحدة الانتباه الذاتي. ثم، يتم دمج مخرجات الانتباه الذاتي مع سمات البصرية الحالية من خلال الانتباه المتقاطع. وأخيرًا، تُقدَّم السمات المُنتَبَهة متقاطعًا إلى فك التشفير (decoder) لتقدير العمق في الإطار الحالي. من خلال تجارب واسعة على عدة معايير، بما في ذلك KITTI وNYU-Depth V2 وDDAD، نُظهر أن MAMo يُحسّن باستمرار شبكات تقدير العمق من صورة واحدة، ويُسجّل دقة جديدة قياسية (SOTA). وبشكل لافت، تُقدِّم نماذج تقدير عمق الفيديو باستخدام MAMo دقة أعلى مع زمن استجابة أقل مقارنةً بالنماذج القياسية القائمة على "مصفوفة التكلفة" (cost-volume).

مَامو: الاستفادة من الذاكرة والانتباه لتقدير عمق الفيديو أحادي العدسة | أحدث الأوراق البحثية | HyperAI