11日前

Qwen 技術報告

Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

論文の詳細を見る

要約

大規模言語モデル（LLMs）は人工知能分野を革命的に変革し、かつては人間に特有とされてきた自然言語処理タスクの実現を可能にした。本研究では、当社の大規模言語モデルシリーズの第一弾として「Qwen」を紹介する。Qwenは、パラメータ数が異なる複数のモデルを含む包括的な言語モデルシリーズであり、ベースの事前学習済み言語モデルであるQwenと、人間の価値観に合わせて微調整された対話用モデルであるQwen-Chatを含んでいる。ベースモデルは、多数の下流タスクにおいて一貫して優れた性能を発揮しており、特に人間からのフィードバックを用いた強化学習（RLHF）によって訓練された対話モデルは、競争力に富んでいる。これらの対話モデルは、エージェントアプリケーションの構築に向けた高度なツール利用能力および計画能力を備えており、コードインタプリタの利用など複雑なタスクにおいても、より大きなモデルと比較しても顕著な性能を示している。さらに、ベース言語モデルを基盤として、コーディングに特化したモデル「Code-Qwen」と「Code-Qwen-Chat」、数学タスクに特化したモデル「Math-Qwen-Chat」も開発した。これらのモデルは、オープンソースモデルと比較して著しく高い性能を発揮しており、プロプライエタリモデルと比較するとわずかに劣る程度である。