HyperAI

LLaVA-OneVision نموذج الرؤية الشاملة متعدد الوسائط التجريبي

نشر LLaVA-OneVision بنقرة واحدة

مقدمة البرنامج التعليمي

LLaVA-OneVision هو نموذج كبير متعدد الوسائط مفتوح تم تطويره بشكل مشترك في عام 2024 من قبل باحثين من ByteDance وجامعة نانيانغ التكنولوجية والجامعة الصينية في هونج كونج وجامعة هونج كونج للعلوم والتكنولوجيا. يمكنه معالجة الصور والنصوص والمدخلات المتداخلة بين الصور والنصوص ومقاطع الفيديو. إنه أول نموذج فردي يمكنه اختراق اختناقات الأداء الخاصة بالنماذج المتعددة الوسائط المفتوحة في سيناريوهات الرؤية الحاسوبية الثلاثة المهمة هذه في وقت واحد.

فهو لا يحقق قدرات نقل التعلم القوية بين الوسائط والمشاهد المختلفة فحسب، بل يوضح أيضًا مزاياه الكبيرة في فهم الفيديو والقدرات عبر المشاهد من خلال نقل المهام. ما يميز LLaVA-OneVision هو قدرته على التعامل مع مجموعة متنوعة من المهام المرئية، سواء كان الأمر يتعلق بتحليل الصور الثابتة أو تحليل مقاطع الفيديو الديناميكية، كما يمكنه توفير مخرجات عالية الجودة. بالإضافة إلى ذلك، تم تصميم النموذج للتركيز على اتساق الحد الأقصى لعدد العلامات المرئية، مما يضمن توازن التمثيلات المرئية في السيناريوهات المختلفة، وبالتالي دعم نقل القدرات عبر السيناريوهات.

الميزات الرئيسية:

  • يدعم دقة إدخال مختلفة تصل إلى 2304*2304 بكسل.
  • في وضع anyres_max_9، يمكن تمثيل إدخال صورة واحدة بما يصل إلى 729*(9+1) رمزًا.
  • يدعم مدخلات متعددة للصور والفيديو. يتم تمثيل إدخال الصور المتعددة بواسطة 729 رمزًا لكل صورة، ويتم تمثيل إدخال الفيديو بواسطة 196 رمزًا لكل إطار. ملاحظة: يتطلب هذا البرنامج التعليمي بطاقة A6000 واحدة للبدء

كيفية الركض

1. 克隆并启动容器,待容器状态为「运行中」。由于模型较大,加载模型需要等待约 1 分钟,拷贝 API 地址到浏览器中打开即可
2. 可以看到如下界面
3. 点击下方上传单个/多个图片、文件或视频,并输入文本提示
4. 回车,生成回答

المناقشة والتبادل

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓