HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 10 أيام

Depth Anything 3: استعادة الفضاء البصري من أي زوايا

Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Depth Anything 3: استعادة الفضاء البصري من أي زوايا

الملخص

نقدّم نموذج Depth Anything 3 (DA3)، الذي يتنبأ بالهندسة المتناسقة مكانيًا من عدد غير محدود من المدخلات البصرية، سواء كانت بوضعية كاميرا معروفة أو غير معروفة. وفي سعي لتحقيق أدنى مستوى من التصميم النموذجي، يُظهر DA3 رؤيتين رئيسيتين: إن استخدام مُعمّل واحد بسيط (مثل مُشفّر DINO الأصلي) يكفي كهيكل أساسي دون الحاجة إلى تخصيص معماري، كما أن استخدام هدف تنبؤ واحد فقط بالعمق والشعاع يُلغِي الحاجة إلى تعلم متعدد المهام معقد. وباستخدام نموذج التدريب المُعلّم-الطالب، يحقق النموذج مستوىً من التفاصيل والقدرة على التعميم مُعادلًا لنموذج Depth Anything 2 (DA2). وقد أنشأنا معيارًا جديدًا للهندسة البصرية يغطي تقدير وضعية الكاميرا، والهندسة من أي زاوية، والعرض البصري. وعلى هذا المعيار، يُحقّق DA3 أفضل أداء حاليًا في جميع المهام، متفوّقًا على النموذج السابق الأفضل (VGGT) بمتوسط 44.3% في دقة وضعية الكاميرا، و25.1% في دقة الهندسة. علاوةً على ذلك، يتفوّق DA3 على DA2 في تقدير العمق الأحادي البصر. وتم تدريب جميع النماذج حصريًا على مجموعات بيانات أكاديمية عامة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Depth Anything 3: استعادة الفضاء البصري من أي زوايا | الأوراق البحثية | HyperAI