HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-OneVision: نقل المهام البصرية بسهولة

Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li

الملخص

نُقدِّم نموذج LLaVA-OneVision، وهو عائلة من النماذج الكبيرة متعددة الوسائط المفتوحة (LMMs)، تم تطويرها من خلال تجميع رؤانا حول البيانات والنماذج والتمثيلات البصرية من سلسلة مقالات LLaVA-NeXT. تُظهر نتائج تجاربنا أن LLaVA-OneVision هو النموذج الواحد الأول الذي يمكنه في آنٍ واحد تجاوز حدود الأداء في النماذج الكبيرة المفتوحة متعددة الوسائط (LMMs) في ثلاث سيناريوهات حاسوبية بصرية مهمة: السيناريوهات الأحادية الصورة، والمتعددة الصور، وسيناريوهات الفيديو. وتميّز تصميم LLaVA-OneVision بتمكينه من تعلم التحويل القوي عبر الوسائط أو السيناريوهات المختلفة، مما أدى إلى ظهور قدرات جديدة. وتحديدًا، تم إثبات قدرات قوية في فهم الفيديو، وتمكّن عبر السيناريوهات من خلال نقل المهام من الصور إلى الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp