vor 11 Tagen

Qwen Technischer Bericht

Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

Details der Forschungsarbeit anzeigen

Abstract

Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und natürliche Sprachverarbeitungsaufgaben ermöglicht, die bisher ausschließlich menschlichen Fähigkeiten zugeschrieben wurden. In dieser Arbeit stellen wir Qwen vor, den ersten Teil unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Serie von Sprachmodellen, die unterschiedliche Modelle mit variierenden Parameteranzahlen umfasst. Sie umfasst Qwen, die Basis-Prätrainierten Sprachmodelle, sowie Qwen-Chat, die durch menschliche Ausrichtungstechniken fine-tuneten Chat-Modelle. Die Basis-Sprachmodelle zeigen konsistent herausragende Leistung in einer Vielzahl von Downstream-Aufgaben, während die Chat-Modelle – insbesondere jene, die mit Reinforcement Learning aus menschlichem Feedback (RLHF) trainiert wurden – äußerst wettbewerbsfähig sind. Die Chat-Modelle verfügen über fortgeschrittene Fähigkeiten im Umgang mit Werkzeugen und Planung, die zur Entwicklung von Agentenanwendungen genutzt werden können, und zeigen beeindruckende Leistung, selbst wenn sie größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code-Interpreters gegenüberstehen. Darüber hinaus haben wir spezialisierte Programmiermodelle, Code-Qwen und Code-Qwen-Chat, sowie mathematikorientierte Modelle, Math-Qwen-Chat, entwickelt, die auf den Basis-Sprachmodellen aufbauen. Diese Modelle erreichen im Vergleich zu Open-Source-Modellen signifikant verbesserte Leistung und liegen lediglich leicht hinter proprietären Modellen zurück.