HyperAIHyperAI
منذ 11 أيام

Depth Anything: تحرير قوة البيانات غير المُعلَّمة على نطاق واسع

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
Depth Anything: تحرير قوة البيانات غير المُعلَّمة على نطاق واسع
الملخص

تقدم هذه الدراسة نموذج Depth Anything، وهو حل عملي للغاية لتقدير العمق من صورة واحدة بشكل موثوق. وبلا سعي وراء وحدات تقنية جديدة، نهدف إلى بناء نموذج أساسي بسيط لكنه قوي، قادر على التعامل مع أي صور تحت أي ظروف. ولتحقيق ذلك، قمنا بتوسيع مجموعة البيانات من خلال تصميم محرك بيانات لجمع وتحديد العلامات تلقائيًا على بيانات غير موسومة على نطاق واسع (~62 مليون صورة)، مما يُعدّ توسعاً كبيرًا في تغطية البيانات، وبالتالي يقلل من خطأ التعميم. ونستعرض استراتيجيتين بسيطتين لكن فعّالتين، تُجعِلان عملية توسيع البيانات واعدة. أولاً، تم إنشاء هدف تحسين أكثر تحديًا باستخدام أدوات تضخيم البيانات، ما يجبر النموذج على البحث النشط عن معرفة بصرية إضافية وتكوين تمثيلات قوية. ثانيًا، تم تطوير إشراف مساعد لضمان أن يرث النموذج معرفة شكلية غنية من المشغلات المُدرَّبة مسبقًا. وقد تم تقييم قدرته على العمل بدون تدريب مسبق (zero-shot) بشكل واسع، بما في ذلك ستة مجموعات بيانات عامة وصور تم التقاطها عشوائيًا. وقد أظهر أداءً مذهلاً في التعميم. علاوةً على ذلك، وباستخدام التحسين الدقيق (fine-tuning) مع معلومات عمق معيارية من مجموعتي بيانات NYUv2 وKITTI، تم تحقيق أداءً قياسيًا جديدًا (SOTA). كما أن نموذج العمق المُحسَّن لدينا يؤدي إلى تحسين نموذج ControlNet المشروط بالعمق. وتم إصدار النماذج على الرابط التالي: https://github.com/LiheYoung/Depth-Anything.

Depth Anything: تحرير قوة البيانات غير المُعلَّمة على نطاق واسع | أحدث الأوراق البحثية | HyperAI