وصف أي شيء نموذج تجريبي
نظرة عامة على المشروع

نموذج وصف أي شيء (DAM) هو نموذج مبتكر لوصف الصور والفيديو، طُوّر بالتعاون بين فرق NVIDIA وجامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في سان فرانسيسكو، وسيُطرح في عام 2025. يُمكّن هذا النموذج من إنشاء أوصاف مُفصّلة بناءً على مناطق مُحدّدة من قِبَل المستخدم (نقاط، مربعات، خربشات، أو أقنعة). بالنسبة لمحتوى الفيديو، ما عليك سوى إضافة تعليقات توضيحية إلى المنطقة في أي إطار للحصول على وصف كامل. نتائج البحث ذات الصلة هي:وصف أي شيء: شرح مفصل للصور ومقاطع الفيديو المترجمة".
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.
أمثلة المشاريع

خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج
يجب ألا يتجاوز حجم الصورة 5 ميجابايت، وألا تتجاوز مدة الفيديو 20 ثانية، وألا يتجاوز حجم الفيديو 5 ميجابايت، وإلا فقد يتسبب ذلك في بطء تشغيل النموذج أو الإبلاغ عن خطأ. يُرجى اختيار منطقة الوصف بشكل معقول.
يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة وضع الصورة ووحدة وضع الفيديو.
وظائف كل وحدة هي كما يلي:
وضع الصورة

وضع الفيديو

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:
@article{lian2025describe,
title={Describe Anything: Detailed Localized Image and Video Captioning},
author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
journal={arXiv preprint arXiv:2504.16072},
year={2025}
} GitHub Stars arXiv