التاريخ

منذ عام واحد

الحجم

5.82 GB

الوسوم

فهم الصور

متعدد الوسائط

فهم الفيديو

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

LLaVA-OneVision هو نموذج كبير متعدد الوسائط مفتوح تم تطويره بشكل مشترك في عام 2024 من قبل باحثين من ByteDance وجامعة نانيانغ التكنولوجية والجامعة الصينية في هونج كونج وجامعة هونج كونج للعلوم والتكنولوجيا. يمكنه معالجة الصور والنصوص والمدخلات المتداخلة بين الصور والنصوص ومقاطع الفيديو. إنه أول نموذج فردي يمكنه اختراق اختناقات الأداء الخاصة بالنماذج المتعددة الوسائط المفتوحة في سيناريوهات الرؤية الحاسوبية الثلاثة المهمة هذه في وقت واحد.

فهو لا يحقق قدرات نقل التعلم القوية بين الوسائط والمشاهد المختلفة فحسب، بل يوضح أيضًا مزاياه الكبيرة في فهم الفيديو والقدرات عبر المشاهد من خلال نقل المهام. ما يميز LLaVA-OneVision هو قدرته على التعامل مع مجموعة متنوعة من المهام المرئية، سواء كان الأمر يتعلق بتحليل الصور الثابتة أو تحليل مقاطع الفيديو الديناميكية، كما يمكنه توفير مخرجات عالية الجودة. بالإضافة إلى ذلك، تم تصميم النموذج للتركيز على اتساق الحد الأقصى لعدد العلامات المرئية، مما يضمن توازن التمثيلات المرئية في السيناريوهات المختلفة، وبالتالي دعم نقل القدرات عبر السيناريوهات.

الميزات الرئيسية:

يدعم دقة إدخال مختلفة تصل إلى 2304*2304 بكسل.
في وضع anyres_max_9، يمكن تمثيل إدخال صورة واحدة بما يصل إلى 729*(9+1) رمزًا.
يدعم مدخلات متعددة للصور والفيديو. يتم تمثيل إدخال الصور المتعددة بواسطة 729 رمزًا لكل صورة، ويتم تمثيل إدخال الفيديو بواسطة 196 رمزًا لكل إطار. ملاحظة: يتطلب هذا البرنامج التعليمي بطاقة A6000 واحدة للبدء

كيفية الركض

1. 克隆并启动容器，待容器状态为「运行中」。由于模型较大，加载模型需要等待约 1 分钟，拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频，并输入文本提示

4. 回车，生成回答

المناقشة والتبادل

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ عام واحد

الحجم

5.82 GB

الوسوم

فهم الصور

متعدد الوسائط

فهم الفيديو

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

الميزات الرئيسية:

يدعم دقة إدخال مختلفة تصل إلى 2304*2304 بكسل.
في وضع anyres_max_9، يمكن تمثيل إدخال صورة واحدة بما يصل إلى 729*(9+1) رمزًا.
يدعم مدخلات متعددة للصور والفيديو. يتم تمثيل إدخال الصور المتعددة بواسطة 729 رمزًا لكل صورة، ويتم تمثيل إدخال الفيديو بواسطة 196 رمزًا لكل إطار. ملاحظة: يتطلب هذا البرنامج التعليمي بطاقة A6000 واحدة للبدء

كيفية الركض

1. 克隆并启动容器，待容器状态为「运行中」。由于模型较大，加载模型需要等待约 1 分钟，拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频，并输入文本提示

4. 回车，生成回答

المناقشة والتبادل

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

نيموترون - بث الكلام - التعرف التلقائي على الكلام

منذ 20 أيام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

منذ 18 أيام

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

نشر نموذج SmolLM3-3B بنقرة واحدة

منذ 2 أشهر

Docling: أداة تحليل المستندات

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

LLaVA-OneVision نموذج الرؤية الشاملة متعدد الوسائط التجريبي

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

كيفية الركض

المناقشة والتبادل

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaVA-OneVision نموذج الرؤية الشاملة متعدد الوسائط التجريبي

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

كيفية الركض

المناقشة والتبادل

ذات صلة دفاتر تفاعلية

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نشر نموذج SmolLM3-3B بنقرة واحدة

Docling: أداة تحليل المستندات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaVA-OneVision نموذج الرؤية الشاملة متعدد الوسائط التجريبي

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

كيفية الركض

المناقشة والتبادل

ذات صلة دفاتر تفاعلية

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نشر نموذج SmolLM3-3B بنقرة واحدة

Docling: أداة تحليل المستندات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نشر نموذج SmolLM3-3B بنقرة واحدة

Docling: أداة تحليل المستندات

ذات صلة دفاتر تفاعلية

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نشر نموذج SmolLM3-3B بنقرة واحدة

Docling: أداة تحليل المستندات