11일 전
Qwen 기술 보고서
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

초록
대규모 언어 모델(LLM)은 인공지능 분야에서 혁신을 일으키며, 이전에는 인간에게만 가능하다고 여겨졌던 자연어 처리 작업을 가능하게 했습니다. 본 연구에서는 우리 대규모 언어 모델 시리즈의 첫 번째 버전인 Qwen을 소개합니다. Qwen은 파라미터 수에 따라 다양한 모델을 포함하는 포괄적인 언어 모델 시리즈입니다. 이에는 Qwen(기본 사전학습 언어 모델)과 인간의 가치 정렬 기법을 활용해 미세조정된 Qwen-Chat(채팅 모델)이 포함됩니다. 기초 언어 모델은 다양한 후행 작업에서 일관되게 뛰어난 성능을 보이며, 특히 인간 피드백을 통한 강화학습(RLHF) 기법으로 훈련된 채팅 모델은 높은 경쟁력을 갖추고 있습니다. 이러한 채팅 모델은 에이전트 애플리케이션 개발을 위한 고도의 도구 사용 및 계획 능력을 보유하고 있으며, 코드 인터프리터를 활용하는 복잡한 작업에서도 더 큰 모델들과 비교해도 인상적인 성능을 보여줍니다. 또한, 기초 언어 모델을 기반으로 코딩 전문 모델인 Code-Qwen 및 Code-Qwen-Chat, 수학 중심 모델인 Math-Qwen-Chat도 개발하였습니다. 이들 모델은 오픈소스 모델에 비해 훨씬 뛰어난 성능을 보이며, 일부는 프로프라이어터리 모델에 비해 약간 뒤처지지만 여전히 높은 수준의 성능을 나타냅니다.