إعادة التفكير في تقدير العمق للرؤية المتعددة من الزوايا: تمثيل موحد

تُحل مسألة تقدير العمق في الطرق القائمة على التعلم القائمة على الرؤية المتعددة كمشكلة انحدار أو تصنيف. وعلى الرغم من الأداء المتميز الذي أظهرته هاتان الطرق مؤخرًا، إلا أنها ما زالت تعاني من عيوب واضحة، مثل ميل طرق الانحدار إلى التعلم الزائد بسبب تكلفة الحجم غير المباشرة، وعجز طرق التصنيف عن استخلاص العمق الدقيق مباشرةً بسبب تنبؤاتها المنفصلة. في هذه الورقة، نقترح تمثيلًا جديدًا يُسمى "التوحيد" (Unification)، الذي يُوحد مزايا الانحدار والتصنيف. إذ يمكنه التقييد المباشر لحجم التكلفة كما في طرق التصنيف، وفي الوقت نفسه تحقيق تنبؤات بعمق أقل من بيكسل كما في طرق الانحدار. ولاستغلال الإمكانات الكامنة في هذا التمثيل، نصمم دالة خسارة جديدة تُسمى "خسارة التركيز الموحّدة" (Unified Focal Loss)، التي تتميز بتوزيع أكثر توازنًا ومنطقية لمواجهة تحدي عدم توازن العينات. وبدمج هذين العنصرين غير المُثقلين، نقدم إطارًا تدريجيًا من الخشنة إلى الدقيقة، نسميه UniMVSNet. وتحقق النتائج التي حصلت على المرتبة الأولى في كلا المعيارين DTU وTanks and Temples دليلًا قاطعًا على أن نموذجنا لا يتفوق فقط من حيث الأداء، بل يتمتع أيضًا بأفضل قدرة على التعميم.