HyperAIHyperAI
منذ 11 أيام

ي: النماذج الأساسية المفتوحة من 01.AI

01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
ي: النماذج الأساسية المفتوحة من 01.AI
الملخص

نقدّم عائلة نماذج Yi، وهي سلسلة من النماذج اللغوية والمتعددة الوسائط التي تُظهر قدرات متعددة الأبعاد قوية. تعتمد عائلة نماذج Yi على نماذج لغوية مُدرّبة مسبقًا بحجم 6B و34B، ثم نُطوّرها لتصبح نماذج محادثة، ونماذج تدعم سياقًا طويلًا يصل إلى 200K، ونماذج مُوسّعة العمق، بالإضافة إلى نماذج متعددة الوسائط (الرؤية واللغة). تحقق النماذج الأساسية لدينا أداءً قويًا في مجموعة واسعة من معايير التقييم مثل MMLU، بينما تُظهر النماذج المُدرّبة بدقة (finetuned) في المحادثة معدلات تفضيل عالية من قبل البشر على منصات تقييم رئيسية مثل AlpacaEval وChatbot Arena. ومعتمدين على بنية حاسوبية فائقة قابلة للتوسع وبنية Transformer الكلاسيكية، نُعزّي أداء نماذج Yi بشكل رئيسي على جودة البيانات الناتجة عن جهودنا في هندسة البيانات. بالنسبة للتدريب المسبق، قمنا ببناء مجموعة بيانات ضخمة تبلغ 3.1 تريليون رمز (token) من النصوص الإنجليزية والصينية باستخدام نموذج متسلسل لتنظيف التكرارات وتصفية الجودة. أما في مرحلة التدريب الدقيق، فقد قمنا بتحسين مجموعة بيانات صغيرة (أقل من 10 آلاف مثال) عبر عدة تكرارات، بحيث تم التحقق من كل مثال فردي بشكل مباشر من قبل مهندسي الذكاء الاصطناعي لدينا. بالنسبة للنماذج متعددة الوسائط (الرؤية واللغة)، قمنا بدمج نموذج لغوي للمحادثة مع معالج تحوّل الرؤية (Vision Transformer Encoder)، ودرّبنا النموذج لتوحيد التمثيلات البصرية مع الفضاء الدلالي للنموذج اللغوي. كما قمنا بتمديد طول السياق إلى 200K باستخدام تدريب مسبق مستمر خفيف الوزن، ونُظهر أداءً قويًا في مهام استرجاع "الإبرة في كومة القش". ونُظهر أيضًا أن تمديد عمق النموذج المُدرّب مسبقًا من خلال التدريب المستمر يُحسّن الأداء بشكل إضافي. نؤمن أن، بالنظر إلى النتائج الحالية، فإن الاستمرار في توسيع حجم المعلمات للنماذج باستخدام بيانات مُحسّنة بعناية سيؤدي إلى نماذج متقدمة أكثر بكثير.