HyperAIHyperAI
il y a 16 jours

Rapport technique InternLM2

Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin
Rapport technique InternLM2
Résumé

L’évolution des grands modèles linguistiques (LLM), tels que ChatGPT et GPT-4, a suscité des débats sur l’arrivée de l’intelligence artificielle générale (AGI). Toutefois, la reproduction de ces avancées dans des modèles à code ouvert s’est révélée particulièrement difficile. Ce papier présente InternLM2, un modèle LLM à code ouvert qui surpasse ses prédécesseurs dans des évaluations complètes portant sur 6 dimensions et 30 benchmarks, ainsi que dans les tâches de modélisation à longue portée et les évaluations subjectives ouvertes, grâce à des techniques innovantes de pré-entraînement et d’optimisation. Le processus de pré-entraînement d’InternLM2 est décrit en détail, mettant en lumière la préparation de divers types de données, notamment du texte, du code et des données à longue portée. InternLM2 capte efficacement les dépendances à long terme, initialement entraîné sur 4 000 tokens, puis progressant à 32 000 tokens durant les phases de pré-entraînement et de fine-tuning, affichant des performances remarquables sur le test « Needle-in-a-Haystack » à 200 000 tokens. InternLM2 est par la suite aligné via une fine-tuning supervisée (SFT) et une stratégie novatrice de renforcement par apprentissage par feedback humain en ligne conditionnel (COOL RLHF), permettant de surmonter les préférences humaines conflictuelles et les phénomènes de « reward hacking ». En publiant des versions d’InternLM2 à différentes étapes d’entraînement et à différentes tailles de modèle, nous offrons à la communauté des éléments pour comprendre l’évolution de ce modèle.

Rapport technique InternLM2 | Articles de recherche récents | HyperAI