الملخص

نُقدِّم نموذج LLaVA-OneVision، وهو عائلة من النماذج الكبيرة متعددة الوسائط المفتوحة (LMMs)، تم تطويرها من خلال تجميع رؤانا حول البيانات والنماذج والتمثيلات البصرية من سلسلة مقالات LLaVA-NeXT. تُظهر نتائج تجاربنا أن LLaVA-OneVision هو النموذج الواحد الأول الذي يمكنه في آنٍ واحد تجاوز حدود الأداء في النماذج الكبيرة المفتوحة متعددة الوسائط (LMMs) في ثلاث سيناريوهات حاسوبية بصرية مهمة: السيناريوهات الأحادية الصورة، والمتعددة الصور، وسيناريوهات الفيديو. وتميّز تصميم LLaVA-OneVision بتمكينه من تعلم التحويل القوي عبر الوسائط أو السيناريوهات المختلفة، مما أدى إلى ظهور قدرات جديدة. وتحديدًا، تم إثبات قدرات قوية في فهم الفيديو، وتمكّن عبر السيناريوهات من خلال نقل المهام من الصور إلى الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار