Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

الملخص
نقدّم نموذج Depth Anything 3 (DA3)، الذي يتنبأ بالهندسة المتناسقة مكانيًا من عدد غير محدود من المدخلات البصرية، سواء كانت بوضعية كاميرا معروفة أو غير معروفة. وفي سعي لتحقيق أدنى مستوى من التصميم النموذجي، يُظهر DA3 رؤيتين رئيسيتين: إن استخدام مُعمّل واحد بسيط (مثل مُشفّر DINO الأصلي) يكفي كهيكل أساسي دون الحاجة إلى تخصيص معماري، كما أن استخدام هدف تنبؤ واحد فقط بالعمق والشعاع يُلغِي الحاجة إلى تعلم متعدد المهام معقد. وباستخدام نموذج التدريب المُعلّم-الطالب، يحقق النموذج مستوىً من التفاصيل والقدرة على التعميم مُعادلًا لنموذج Depth Anything 2 (DA2). وقد أنشأنا معيارًا جديدًا للهندسة البصرية يغطي تقدير وضعية الكاميرا، والهندسة من أي زاوية، والعرض البصري. وعلى هذا المعيار، يُحقّق DA3 أفضل أداء حاليًا في جميع المهام، متفوّقًا على النموذج السابق الأفضل (VGGT) بمتوسط 44.3% في دقة وضعية الكاميرا، و25.1% في دقة الهندسة. علاوةً على ذلك، يتفوّق DA3 على DA2 في تقدير العمق الأحادي البصر. وتم تدريب جميع النماذج حصريًا على مجموعات بيانات أكاديمية عامة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.