HyperAIHyperAI
منذ 16 أيام

تحسين التقدير الثلاثي الأبعاد للعمق من منظور واحد باستخدام محول التنبؤ الكثيف غير المحلي والتعلم المراقب والمُتشارك معًا

Ilwi Yun, Hyuk-Jae Lee, Chae Eun Rhee
تحسين التقدير الثلاثي الأبعاد للعمق من منظور واحد باستخدام محول التنبؤ الكثيف غير المحلي والتعلم المراقب والمُتشارك معًا
الملخص

نظرًا لصعوبة الحصول على بيانات العمق الحقيقية (Ground Truth) للصور الإيكي ركتانغولار (360)، فإن جودة وكمية بيانات العمق للصور الإيكي ركتانغولار الحالية لا تكفي لتمثيل المشاهد المتنوعة في العالم. وبالتالي، فإن الدراسات السابقة المتعلقة بتقدير عمق الصور 360 التي اعتمدت حصريًا على التعلم المراقب كانت م destined لتُنتج نتائج غير مرضية. وعلى الرغم من تقديم أساليب تعلم ذاتي (Self-supervised) تركز على الصور الإيكي ركتانغولار (EIs)، إلا أنها غالبًا ما تُنتج حلولًا غير صحيحة أو غير فريدة، مما يؤدي إلى أداء غير مستقر. في هذا البحث، نقترح أساليب جديدة لتقدير عمق منظور واحد (Monocular Depth Estimation) للصورة 360، بهدف تحسين المجالات التي كانت تحد من الدراسات السابقة. أولاً، نقدم طريقة تعلم ذاتي لتقدير عمق 360 تستخدم فقط مقاطع فيديو محاذاة بالاتجاه الجاذبي (Gravity-aligned)، والتي تمتلك إمكانية التقليل من الحاجة إلى بيانات العمق أثناء عملية التدريب. ثانيًا، نقترح خطة تعلم مشتركًا تُحقَّق من خلال دمج التعلم المراقب والتعلم الذاتي، حيث يتم تعويض نقاط الضعف في كل نوع من التعلم، مما يؤدي إلى تقدير أدق للعمق. ثالثًا، نقترح كتلة دمج غير محلية (Non-local Fusion Block) التي يمكنها الحفاظ على المعلومات العالمية المشفرة بواسطة نموذج المحولات (Vision Transformer) أثناء إعادة بناء بيانات العمق. وباستخدام الأساليب المقترحة، ننجح في تطبيق المحولات على تقديرات عمق 360، إلى أقصى معرفة لدينا، وهو ما لم يُجرَ تجربته من قبل. وعلى عدة معايير معيارية (benchmarks)، تحقق طريقةنا تحسينات كبيرة مقارنة بالأساليب السابقة، ونُسَجِّل أداءً يُعدّ الأفضل في مجاله حتى الآن.

تحسين التقدير الثلاثي الأبعاد للعمق من منظور واحد باستخدام محول التنبؤ الكثيف غير المحلي والتعلم المراقب والمُتشارك معًا | أحدث الأوراق البحثية | HyperAI