HyperAI

وصف أي شيء نموذج تجريبي

نظرة عامة على المشروع

نجوم جيثب

نموذج وصف أي شيء (DAM) هو نموذج مبتكر لوصف الصور والفيديو، طُوّر بالتعاون بين فرق NVIDIA وجامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في سان فرانسيسكو، وسيُطرح في عام 2025. يُمكّن هذا النموذج من إنشاء أوصاف مُفصّلة بناءً على مناطق مُحدّدة من قِبَل المستخدم (نقاط، مربعات، خربشات، أو أقنعة). بالنسبة لمحتوى الفيديو، ما عليك سوى إضافة تعليقات توضيحية إلى المنطقة في أي إطار للحصول على وصف كامل. نتائج البحث ذات الصلة هي:وصف أي شيء: شرح مفصل للصور ومقاطع الفيديو المترجمة".

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

أمثلة المشاريع

أمثلة المشاريع

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

يجب ألا يتجاوز حجم الصورة 5 ميجابايت، وألا تتجاوز مدة الفيديو 20 ثانية، وألا يتجاوز حجم الفيديو 5 ميجابايت، وإلا فقد يتسبب ذلك في بطء تشغيل النموذج أو الإبلاغ عن خطأ. يُرجى اختيار منطقة الوصف بشكل معقول.

يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة وضع الصورة ووحدة وضع الفيديو.

وظائف كل وحدة هي كما يلي:

وضع الصورة

وضع الفيديو

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang  لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
} GitHub Stars arXiv