HyperAIHyperAI
vor 2 Tagen

Intern-S1: Ein wissenschaftliches multimodales Grundmodell

Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou
Intern-S1: Ein wissenschaftliches multimodales Grundmodell
Abstract

In den letzten Jahren sind zahlreiche Open-Source-Grundmodelle hervorgegangen, die beachtliche Fortschritte in mehreren weitverbreiteten Anwendungsfeldern erzielt haben, wobei ihre Leistungsfähigkeit der von proprietären Modellen nahekommt. In hochwertigen, jedoch anspruchsvolleren wissenschaftlichen Fachgebieten hingegen bleibt die Forschung entweder auf Expertenmodelle angewiesen, oder die Entwicklung allgemeiner Grundmodelle verläuft deutlich langsamer im Vergleich zu populären Bereichen – insgesamt bleibt die Leistung noch weit hinter den Anforderungen für eine Transformation der wissenschaftlichen Forschung zurück, und es besteht eine erhebliche Lücke zwischen Open-Source- und proprietären Modellen in diesen wissenschaftlichen Domänen. Um diese Kluft zu verringern und einen Schritt weiter in Richtung künstlicher allgemeiner Intelligenz (AGI) zu gehen, stellen wir Intern-S1 vor: ein spezialisiertes Generalist-Modell mit allgemeinem Verständnis und Schlussfolgerungsfähigkeit, das über Expertise zur Analyse mehrerer wissenschaftlicher Datenmodalitäten verfügt. Intern-S1 ist ein multimodales Mixture-of-Experts (MoE)-Modell mit 28 Milliarden aktivierten Parametern und insgesamt 241 Milliarden Parametern, das kontinuierlich auf 5 Terabyte an Tokens vortrainiert wurde, darunter über 2,5 Terabyte aus wissenschaftlichen Domänen. Im Nachtrainingsstadium durchläuft Intern-S1 zunächst offline und anschließend online verstärkendes Lernen (Reinforcement Learning, RL) im Rahmen von InternBootCamp, wobei wir Mixture-of-Rewards (MoR) einführen, um das RL-Training auf über 1000 Aufgaben gleichzeitig zu synergisieren. Durch integrierte Innovationen in Algorithmen, Daten und Trainingsystemen erreicht Intern-S1 Spitzenleistungen im Online-RL-Training. In umfassenden Evaluierungsbenchmarks zeigt Intern-S1 wettbewerbsfähige Ergebnisse bei allgemeinen Schlussfolgerungsaufgaben unter Open-Source-Modellen und übertrifft Open-Source-Modelle erheblich in wissenschaftlichen Anwendungsbereichen. Zudem erreicht es in professionellen Aufgaben – wie der Planung molekularer Synthesen, der Vorhersage von Reaktionsbedingungen sowie der Abschätzung der thermodynamischen Stabilität von Kristallen – sogar die Leistung von proprietären State-of-the-Art-Modellen. Unsere Modelle sind unter https://huggingface.co/internlm/Intern-S1 verfügbar.