HyperAIHyperAI
منذ 3 أشهر

تقرير فني لـ Qwen2

An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
تقرير فني لـ Qwen2
الملخص

يُقدّم هذا التقرير سلسلة Qwen2، وهي أحدث إضافة إلى نماذج اللغة الكبيرة ونماذج الوسائط الكبيرة. نُطلق مجموعة شاملة من النماذج الأساسية ونماذج التوجيه المُدرَّبة، تغطي نطاقًا من المعلمات يتراوح بين 0.5 و72 مليار، وتشمل نماذج كثيفة (Dense Models) ونموذج مزيج من الخبراء (Mixture-of-Experts). يتفوّق Qwen2 على معظم النماذج المفتوحة المصدر السابقة، بما في ذلك النموذج السابق Qwen1.5، ويُظهر أداءً تنافسيًا مقارنة بالنماذج المُملَكة في مجموعة متنوعة من المعايير المتعلقة بفهم اللغة، وإنتاج النص، والكفاءة متعددة اللغات، والبرمجة، والرياضيات، والاستنتاج.يُعتبر النموذج الرئيسي Qwen2-72B نموذجًا متميزًا من حيث الأداء: حيث حقق 84.2 في MMLU، و37.9 في GPQA، و64.6 في HumanEval، و89.5 في GSM8K، و82.4 في BBH كنموذج أساسي للغة. أما النسخة المُدرّبة للتوجيه، Qwen2-72B-Instruct، فقد حققت 9.1 في MT-Bench، و48.1 في Arena-Hard، و35.7 في LiveCodeBench. علاوةً على ذلك، تُظهر سلسلة Qwen2 قدرات متعددة اللغات قوية، وتتقن نحو 30 لغة، بما في ذلك الإنجليزية، والصينية، والإسبانية، والفرنسية، والألمانية، والعربية، والروسية، والكورية، واليابانية، والتايلاندية، والفيتنامية، وغيرها، مما يُبرز تنوّعها وانتشارها العالمي.ولتعزيز الابتكار المجتمعي والوصول السهل، قمنا بالإفصاح عن أوزان نموذج Qwen2 مفتوحة المصدر على منصتي Hugging Face¹ وModelScope²، كما تم توفير المواد الإضافية، بما في ذلك أمثلة التعليمات البرمجية، على GitHub³. تضم هذه المنصات أيضًا موارد للتحجيم (Quantization)، والضبط الدقيق (Fine-tuning)، والنشر (Deployment)، مما يُسهّل تنفيذ مجموعة واسعة من التطبيقات والأبحاث.