HyperAIHyperAI
منذ 15 أيام

HiMODE: نموذج هجين لتقدير العمق من منظور مفرد أومنيديريكتي

Masum Shah Junayed, Arezoo Sadeghzadeh, Md Baharul Islam, Lai-Kuan Wong, Tarkan Aydin
HiMODE: نموذج هجين لتقدير العمق من منظور مفرد أومنيديريكتي
الملخص

تحظى التقديرات العميقة الأحادية الاتجاهية الشاملة باهتمام بحثي كبير نظرًا لتطبيقاتها الواسعة في استشعار البيئة المحيطة بزاوية 360 درجة. تعاني الطرق الحالية في هذا المجال من قيود تتعلق بإعادة استرجاع تفاصيل الأشياء الصغيرة، وفقدان البيانات أثناء عملية جمع خرائط العمق الحقيقية (ground-truth). في هذا البحث، نقترح نموذجًا جديدًا لتقدير العمق الأحادي الاتجاهي الشامل يُسمى HiMODE، والذي يعتمد على بنية هجينة من الشبكة العصبية التلافيفية (CNN) وشبكة Transformer (مُشفِّر-مُفكِّك)، حيث تم تصميم وحداتها بشكل فعّال لتقليل التشوهات وتكاليف الحساب، دون التضحية بالأداء. أولاً، نصمم شبكة هرمية للسمات تعتمد على كتلة HNet لاستخراج سمات عالية الدقة بالقرب من الحواف. ويُحسَّن الأداء بشكل إضافي بفضل طبقة الانتباه الذاتي والمتداخل (self and cross attention) ووحدات المساحة/الزمن (spatial/temporal patches) في مُشفِّر ومُفكِّك Transformer على التوالي. بالإضافة إلى ذلك، تُستخدم وحدة متبقيات مساحية (spatial residual block) لتقليل عدد المعلمات. من خلال تمرير السمات العميقة المستخرجة من الصورة المدخلة عبر كل كتلة أساسية في الشبكة، إلى جانب خرائط العمق الأولية التي يُقدِّمها مُشفِّر-مُفكِّك Transformer، عبر طبقة تعديل السياق (context adjustment layer)، يمكن للنموذج إنتاج خرائط عمق ناتجة تتفوق في الجودة البصرية على خرائط العمق الحقيقية. أظهرت دراسات التحليل التفصيلي الشاملة أهمية كل وحدة منفصلة. وتم إجراء تجارب واسعة على ثلاث مجموعات بيانات: Stanford3D، Matterport3D، وSunCG، وأظهرت النتائج أن HiMODE يمكنه تحقيق أداءً رائدًا في مجال تقدير العمق الأحادي الاتجاهي بزاوية 360 درجة.

HiMODE: نموذج هجين لتقدير العمق من منظور مفرد أومنيديريكتي | أحدث الأوراق البحثية | HyperAI