3달 전

Qwen2 기술 보고서

An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
Qwen2 기술 보고서
초록

이 보고서는 대규모 언어 모델 및 대규모 다중모달 모델의 최신 버전인 Qwen2 시리즈를 소개합니다. 우리는 0.5B에서 72B까지의 파라미터 범위를 갖춘 밀도형 모델(Dense Model)과 전문가 집합 모델(Mixture-of-Experts, MoE)을 포함하는 포괄적인 기초 언어 모델 및 지시 조정형 언어 모델 세트를 공개합니다. Qwen2는 이전 버전인 Qwen1.5를 포함한 대부분의 기존 오픈웨이트 모델을 능가하며, 언어 이해, 생성, 다국어 능력, 코딩, 수학, 추론 등 다양한 벤치마크에서 사내 모델과 경쟁력 있는 성능을 보여줍니다.주력 모델인 Qwen2-72B는 기초 언어 모델로서 MMLU 84.2, GPQA 37.9, HumanEval 64.6, GSM8K 89.5, BBH 82.4의 성능을 기록하며 뛰어난 능력을 입증했습니다. 지시 조정형 버전인 Qwen2-72B-Instruct는 MT-Bench 9.1, Arena-Hard 48.1, LiveCodeBench 35.7의 성능을 달성하며, 실제 응용 환경에서의 유연성과 정확성을 입증했습니다. 또한 Qwen2는 약 30개의 언어에 걸쳐 강력한 다국어 처리 능력을 보유하고 있으며, 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원함으로써 그 유연성과 글로벌 적용 가능성을 입증합니다.커뮤니티의 혁신과 접근성을 촉진하기 위해, 우리는 Qwen2 모델의 가중치를 Hugging Face¹ 및 ModelScope²에 공개하였으며, 예제 코드를 포함한 보조 자료도 GitHub³에 공개하였습니다. 이러한 플랫폼에는 양자화, 미세 조정(Fine-tuning), 배포를 위한 다양한 리소스도 포함되어 있어, 다양한 응용 및 연구 활동을 원활히 지원할 수 있습니다.