MiDaS v3.1 — مختبر نماذج لتقدير العمق النسبي الأحادي المقاوم

نُطلق إصدار MiDaS v3.1 لتقدير العمق من صورة واحدة، ويُقدّم مجموعة متنوعة من النماذج الجديدة المستندة إلى خلفيات مشفرة (encoders) مختلفة. يُحفّز هذا الإصدار على نجاح نماذج التحويل (transformers) في مجال الرؤية الحاسوبية، مع توفر مجموعة كبيرة من نماذج التحويل المُدرّبة مسبقًا للرؤية. نستكشف كيف يؤثر استخدام أبرز نماذج التحويل للرؤية كمشفرات للصورة على جودة تقدير العمق ووقت التنفيذ في هيكل MiDaS. كما يشمل بحثنا أيضًا النماذج الحديثة القائمة على التحويلات (convolutional) التي تحقق جودة مماثلة لنموذج التحويل في مهام تصنيف الصور. في حين أن الإصدار السابق MiDaS v3.0 كان يعتمد فقط على نموذج التحويل القياسي ViT، فإن MiDaS v3.1 يقدّم نماذج إضافية مستندة إلى BEiT، Swin، SwinV2، Next-ViT وLeViT. تقدّم هذه النماذج توازنات مختلفة بين الأداء ووقت التنفيذ. ويُحسّن أفضل نموذج جودة تقدير العمق بنسبة 28٪، بينما تتيح النماذج الفعّالة إجراء مهام لاحقة تتطلب معدلات إطارات عالية. كما نُقدّم أيضًا عملية عامة لدمج خلفيات جديدة. يمكن مشاهدة فيديو ملخّص للعمل عبر الرابط: https://youtu.be/UjaeNNFf9sE، بينما يكون الكود متاحًا على: https://github.com/isl-org/MiDaS.