Command Palette
Search for a command to run...
تقرير تقني بايتشوان أوميني
تقرير تقني بايتشوان أوميني
الملخص
تُبرز القدرات متعددة الوسائط البارزة وتجربة التفاعل المتطورة لنموذج GPT-4o دوره الحاسم في التطبيقات العملية، غير أن النموذج يفتقر إلى نسخة مفتوحة المصدر ذات أداء عالٍ. في هذا البحث، نقدّم نموذج Baichuan-Omni، وهو أول نموذج لغوي كبير متعدد الوسائط (MLLM) مفتوح المصدر بحجم 7B، يمتلك القدرة على معالجة وتحليل الوسائط المتعددة — مثل الصور، والفيديوهات، والصوتيات، والنصوص — بشكل متزامن، مع تقديم تجربة تفاعلية متعددة الوسائط متطورة وأداءً قويًا. ونُقدّم نموذج تدريب متعدد الوسائط فعّال، يبدأ بنموذج بحجم 7B، ثم يمر بمرحلتين: التماثل متعدد الوسائط، والتحسين متعدد المهام عبر الوسائط الصوتية، والصور، والفيديوهات، والنصوص. يُزوّد هذا النهج النموذج اللغوي بالقدرة على التعامل بكفاءة مع البيانات البصرية والصوتية. ونُظهر أداءً قويًا في مجموعة متنوعة من المعايير متعددة الوسائط والوسيطية الشاملة (omni-modal)، ونهدف من هذا المساهمة إلى أن تُشكّل معيارًا تنافسيًا مفتوح المصدر يُسهم في تطوير فهم متعدد الوسائط والتفاعل في الوقت الفعلي داخل المجتمع المفتوح المصدر.