HyperAIHyperAI
منذ 16 أيام

تقرير فني عن InternLM2

Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin
تقرير فني عن InternLM2
الملخص

إن تطور النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT وGPT-4 قد أثار مناقشات حول ظهور الذكاء الاصطناعي العام (AGI). ومع ذلك، ظلت محاكاة هذه التطورات في النماذج المفتوحة المصدر أمرًا صعبًا. تقدم هذه الورقة البحثية نموذج InternLM2، وهو نموذج لغوي كبير مفتوح المصدر، يتفوق على نماذجه السابقة في تقييمات شاملة تغطي 6 أبعاد و30 معيارًا، بالإضافة إلى نمذجة السياقات الطويلة والتقييمات الذاتية المفتوحة، وذلك بفضل تقنيات تدريب مسبق وتحسين مبتكرة. يُفصَّل عملية التدريب المسبق لـ InternLM2 بشكل دقيق، مع تسليط الضوء على إعداد أنواع متنوعة من البيانات، بما في ذلك النصوص والكود والبيانات الطويلة السياق. ويُظهر InternLM2 قدرة فعّالة على التقاط الاعتماديات طويلة المدى، حيث تم تدريبه أولًا على 4000 رمز (token)، ثم تطور إلى 32000 رمز خلال مراحل التدريب المسبق والتحسين الدقيق، مُظهرًا أداءً متميزًا في اختبار "الإبرة في كومة القش" بسياق يبلغ 200 ألف رمز. كما تم تحسين محاذاة InternLM2 باستخدام التحسين المراقب (SFT) واستراتيجية مبتكرة تُعرف بـ "التعلم التكراري من التغذية الراجعة البشرية الشرطية المباشرة" (COOL RLHF)، والتي تعالج التناقضات في تفضيلات البشر والهجمات على المكافآت (reward hacking). وبإطلاق نماذج InternLM2 في مراحل تدريب مختلفة وأحجام نماذج متنوعة، نوفر للمجتمع العلمي رؤى حول تطور النموذج.

تقرير فني عن InternLM2 | أحدث الأوراق البحثية | HyperAI