التاريخ

منذ 8 أشهر

الحجم

776.37 MB

الوسوم

فهم الصور

فهم الفيديو

الترخيص

Apache 2.0

GitHub

NVlabs/describe-anything

رابط الورقة البحثية

2504.16072

نظرة عامة على المشروع

نموذج وصف أي شيء (DAM) هو نموذج مبتكر لوصف الصور والفيديوهات، طُوّر بالتعاون بين فرق من NVIDIA وجامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في سان فرانسيسكو، وأُطلق عام 2025. يُمكن لهذا النموذج توليد أوصاف تفصيلية بناءً على مناطق يُحددها المستخدم (نقاط، مربعات، خطوط عشوائية، أو أقنعة). بالنسبة لمحتوى الفيديو، يُمكن الحصول على وصف كامل ببساطة عن طريق إضافة تعليقات توضيحية إلى أي إطار. تتوفر أوراق بحثية ذات صلة. وصف أي شيء: شرح مفصل للصور ومقاطع الفيديو المترجمة .

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

أمثلة المشاريع

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

يجب ألا يتجاوز حجم الصورة 5 ميجابايت، وألا تتجاوز مدة الفيديو 20 ثانية، وألا يتجاوز حجم الفيديو 5 ميجابايت، وإلا فقد يتسبب ذلك في بطء تشغيل النموذج أو الإبلاغ عن خطأ. يُرجى اختيار منطقة الوصف بشكل معقول.

يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة وضع الصورة ووحدة وضع الفيديو.

وظائف كل وحدة هي كما يلي:

وضع الصورة

وضع الفيديو

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
} GitHub Stars arXiv

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 8 أشهر

الحجم

776.37 MB

الوسوم

فهم الصور

فهم الفيديو

الترخيص

Apache 2.0

GitHub

NVlabs/describe-anything

رابط الورقة البحثية

2504.16072

نظرة عامة على المشروع

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

أمثلة المشاريع

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

يجب ألا يتجاوز حجم الصورة 5 ميجابايت، وألا تتجاوز مدة الفيديو 20 ثانية، وألا يتجاوز حجم الفيديو 5 ميجابايت، وإلا فقد يتسبب ذلك في بطء تشغيل النموذج أو الإبلاغ عن خطأ. يُرجى اختيار منطقة الوصف بشكل معقول.

يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة وضع الصورة ووحدة وضع الفيديو.

وظائف كل وحدة هي كما يلي:

وضع الصورة

وضع الفيديو

التبادل والمناقشة

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
} GitHub Stars arXiv

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

وصف أي شيء نموذج تجريبي

نظرة عامة على المشروع

أمثلة المشاريع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

وصف أي شيء نموذج تجريبي

نظرة عامة على المشروع

أمثلة المشاريع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

وصف أي شيء نموذج تجريبي

نظرة عامة على المشروع

أمثلة المشاريع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

ذات صلة دفاتر تفاعلية

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX