vor 16 Tagen

InternLM2 Technischer Bericht

Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin

Details der Forschungsarbeit anzeigen

Abstract

Die Entwicklung großer Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und GPT-4 hat kontroverse Diskussionen über den bevorstehenden Eintritt künstlicher allgemeiner Intelligenz (Artificial General Intelligence, AGI) ausgelöst. Die Nachahmung solcher Fortschritte in Open-Source-Modellen erwies sich jedoch als herausfordernd. In dieser Arbeit wird InternLM2 vorgestellt, ein Open-Source-LLM, das in umfassenden Evaluierungen über sechs Dimensionen und 30 Benchmarks, bei der Modellierung langen Kontexts sowie in offenen, subjektiven Bewertungen seine Vorgänger übertrifft. Dies wird durch innovative Vortrainings- und Optimierungstechniken ermöglicht. Der Vortrainingsprozess von InternLM2 wird detailliert beschrieben und betont dabei die Vorbereitung einer Vielzahl unterschiedlicher Datentypen, darunter Text, Code und langen Kontextdaten. InternLM2 erfasst effizient langfristige Abhängigkeiten: Es wird zunächst auf 4.000 Token trainiert und im Verlauf des Vortrainings und der Feinabstimmung auf 32.000 Token erweitert, wodurch es herausragende Leistung im „Needle-in-a-Haystack“-Test mit 200.000 Token zeigt. Zudem wird InternLM2 mittels Supervised Fine-Tuning (SFT) und einer neuartigen Strategie namens Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) weiter ausgerichtet, die widersprüchliche menschliche Präferenzen und Reward-Hacking effektiv adressiert. Durch die Veröffentlichung von InternLM2-Modellen in verschiedenen Trainingsstadien und Modellgrößen geben wir der Forschungsgemeinschaft Einblicke in die evolutionäre Entwicklung des Modells.