HyperAIHyperAI

Command Palette

Search for a command to run...

نشر VideoLLaMA3-7B بنقرة واحدة

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، وينشر نموذج VideoLLaMA3-7B-Image، ويقدم مثالين لفهم الفيديو والصور. بالإضافة إلى ذلك، يوفر البرنامج أربعة دروس تعليمية في نصوص دفتر الملاحظات حول "فهم صورة واحدة"، و"فهم صور متعددة"، و"التعبير عن المرجع البصري وتحديد موقعه"، و"فهم الفيديو".

VideoLLaMA3 هو نموذج أساسي متعدد الوسائط مفتوح المصدر، أصدره فريق معالجة اللغات الطبيعية في أكاديمية علي بابا DAMO (DAMO-NLP-SG) في فبراير 2025، ويركز على مهام فهم الصور والفيديو. بفضل تصميم بنية مُركّزة على الرؤية وهندسة بيانات عالية الجودة، تم تحسين دقة وكفاءة فهم الفيديو بشكل ملحوظ. يراعي إصداره الخفيف (2 B) احتياجات النشر النهائي، بينما يوفر نموذج 7 B أداءً فائقًا للتطبيقات البحثية. حقق نموذج 7 B أداءً عاليًا في المهام الرئيسية الثلاث: فهم الفيديو العام، والاستدلال الزمني، وتحليل الفيديو الطويل. نتائج البحث ذات الصلة هي:VideoLLaMA 3: نماذج أساسية متعددة الوسائط لفهم الصور والفيديو".


👉يوفر المشروع 4 نماذج من النماذج:

فيديو معايير الأداء التفصيلية:

عرض الأداء التفصيلي لمعايير الصورة:

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

فهم الفيديو

نتيجة 

فهم الصورة

نتيجة 

3. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓ 

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{damonlpsg2025videollama3,
  title={VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding},
  author={Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao},
  journal={arXiv preprint arXiv:2501.13106},
  year={2025},
  url = {https://arxiv.org/abs/2501.13106}
}

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نشر VideoLLaMA3-7B بنقرة واحدة | الدروس | HyperAI