الملخص

تُبرز القدرات متعددة الوسائط البارزة وتجربة التفاعل المتطورة لنموذج GPT-4o دوره الحاسم في التطبيقات العملية، غير أن النموذج يفتقر إلى نسخة مفتوحة المصدر ذات أداء عالٍ. في هذا البحث، نقدّم نموذج Baichuan-Omni، وهو أول نموذج لغوي كبير متعدد الوسائط (MLLM) مفتوح المصدر بحجم 7B، يمتلك القدرة على معالجة وتحليل الوسائط المتعددة — مثل الصور، والفيديوهات، والصوتيات، والنصوص — بشكل متزامن، مع تقديم تجربة تفاعلية متعددة الوسائط متطورة وأداءً قويًا. ونُقدّم نموذج تدريب متعدد الوسائط فعّال، يبدأ بنموذج بحجم 7B، ثم يمر بمرحلتين: التماثل متعدد الوسائط، والتحسين متعدد المهام عبر الوسائط الصوتية، والصور، والفيديوهات، والنصوص. يُزوّد هذا النهج النموذج اللغوي بالقدرة على التعامل بكفاءة مع البيانات البصرية والصوتية. ونُظهر أداءً قويًا في مجموعة متنوعة من المعايير متعددة الوسائط والوسيطية الشاملة (omni-modal)، ونهدف من هذا المساهمة إلى أن تُشكّل معيارًا تنافسيًا مفتوح المصدر يُسهم في تطوير فهم متعدد الوسائط والتفاعل في الوقت الفعلي داخل المجتمع المفتوح المصدر.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار