HyperAIHyperAI
منذ 3 أشهر

تقرير فني حول Baichuan-Omni

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
تقرير فني حول Baichuan-Omni
الملخص

تُبرز القدرات متعددة الوسائط البارزة وتجربة التفاعل في GPT-4o دورها الحاسم في التطبيقات العملية، ومع ذلك، فإنها تفتقر إلى نسخة مفتوحة المصدر ذات أداء عالٍ. في هذا البحث، نقدم Baichuan-Omni، أول نموذج لغوي كبير متعدد الوسائط (MLLM) مفتوح المصدر بحجم 7B، قادر على معالجة وتحليل الوسائط المتعددة—الصورة، الفيديو، الصوت، والنص—بشكل متزامن، مع تقديم تجربة تفاعلية متعددة الوسائط متقدمة وأداءً قويًا. نقترح نموذج تدريب متعدد الوسائط فعّال يبدأ بنموذج بحجم 7B، ثم يمر بمرحلتين: التوافقيّة متعددة الوسائط، والضبط الدقيق متعدد المهام عبر الوسائط الصوتية، والصور، والفيديوهات، والنصوص. يُزوّد هذا النهج النموذج اللغوي بالقدرة على التعامل بكفاءة مع البيانات البصرية والصوتية. وبفضل أدائه القوي في مجموعة متنوعة من الاختبارات متعددة الوسائط والمتعددة الأوجه، نهدف إلى أن يُعد هذا المساهمة منافسًا قويًا كأساس معياري مفتوح المصدر لدعم تطوير الفهم متعدد الوسائط والتفاعل الفوري في المجتمع المفتوح المصدر.