VGGT: نموذج رؤية ثلاثي الأبعاد عام
1. مقدمة البرنامج التعليمي

VGGT هي شبكة عصبية تغذية أمامية، أطلقها فريق Meta AI ومجموعة الهندسة البصرية (VGG) في جامعة أكسفورد في 28 مارس 2025. يمكنها استنتاج جميع الخصائص ثلاثية الأبعاد الرئيسية للمشهد مباشرةً من خلال رؤية واحدة أو بضع مشاهدات أو مئات المشاهدات في ثوانٍ معدودة، بما في ذلك معلمات الكاميرا الخارجية والداخلية، وخرائط النقاط، وخرائط العمق، ومسارات النقاط ثلاثية الأبعاد. كما أنها بسيطة وفعالة، حيث تُكمل عملية إعادة البناء في أقل من ثانية واحدة، متجاوزةً بذلك الطرق البديلة التي تتطلب معالجة لاحقة باستخدام تقنيات تحسين الهندسة البصرية. نتائج البحث ذات الصلة هي:VGGT: محول أرضي هندسي مرئي"، وقد تم قبولها من قبل CVPR 2025 وفازت بجائزة أفضل ورقة بحثية CVPR 2025.
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك استخدام النموذج
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
كيفية الاستخدام

وصف المعلمة:
- حدد وضع التنبؤ:
- خريطة العمق وفرع الكاميرا: إعادة البناء باستخدام فروع خريطة العمق ووضعية الكاميرا.
- فرع خريطة النقاط: استخدم فرع سحابة النقاط مباشرة لإعادة البناء.
- عتبة الثقة: عتبة الثقة، تستخدم لتصفية النتائج ذات الثقة الأعلى في مخرجات النموذج.
- إظهار النقاط من الإطار: ما إذا كان سيتم عرض النقاط المستخرجة من الإطار المحدد.
- إظهار الكاميرا: ما إذا كان سيتم عرض موضع الكاميرا.
- تصفية السماء: ما إذا كان سيتم تصفية نقاط السماء.
- تصفية الخلفية السوداء: ما إذا كان سيتم تصفية النقاط ذات الخلفية السوداء.
- تصفية الخلفية البيضاء: ما إذا كان سيتم تصفية النقاط ذات الخلفية البيضاء.
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@inproceedings{wang2025vggt,
title={VGGT: Visual Geometry Grounded Transformer},
author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2025}
}