Intern-S1: Ein wissenschaftliches multimodales Grundmodell

In den letzten Jahren sind zahlreiche Open-Source-Grundmodelle hervorgegangen, die beachtliche Fortschritte in mehreren weitverbreiteten Anwendungsfeldern erzielt haben, wobei ihre Leistungsfähigkeit der von proprietären Modellen nahekommt. In hochwertigen, jedoch anspruchsvolleren wissenschaftlichen Fachgebieten hingegen bleibt die Forschung entweder auf Expertenmodelle angewiesen, oder die Entwicklung allgemeiner Grundmodelle verläuft deutlich langsamer im Vergleich zu populären Bereichen – insgesamt bleibt die Leistung noch weit hinter den Anforderungen für eine Transformation der wissenschaftlichen Forschung zurück, und es besteht eine erhebliche Lücke zwischen Open-Source- und proprietären Modellen in diesen wissenschaftlichen Domänen. Um diese Kluft zu verringern und einen Schritt weiter in Richtung künstlicher allgemeiner Intelligenz (AGI) zu gehen, stellen wir Intern-S1 vor: ein spezialisiertes Generalist-Modell mit allgemeinem Verständnis und Schlussfolgerungsfähigkeit, das über Expertise zur Analyse mehrerer wissenschaftlicher Datenmodalitäten verfügt. Intern-S1 ist ein multimodales Mixture-of-Experts (MoE)-Modell mit 28 Milliarden aktivierten Parametern und insgesamt 241 Milliarden Parametern, das kontinuierlich auf 5 Terabyte an Tokens vortrainiert wurde, darunter über 2,5 Terabyte aus wissenschaftlichen Domänen. Im Nachtrainingsstadium durchläuft Intern-S1 zunächst offline und anschließend online verstärkendes Lernen (Reinforcement Learning, RL) im Rahmen von InternBootCamp, wobei wir Mixture-of-Rewards (MoR) einführen, um das RL-Training auf über 1000 Aufgaben gleichzeitig zu synergisieren. Durch integrierte Innovationen in Algorithmen, Daten und Trainingsystemen erreicht Intern-S1 Spitzenleistungen im Online-RL-Training. In umfassenden Evaluierungsbenchmarks zeigt Intern-S1 wettbewerbsfähige Ergebnisse bei allgemeinen Schlussfolgerungsaufgaben unter Open-Source-Modellen und übertrifft Open-Source-Modelle erheblich in wissenschaftlichen Anwendungsbereichen. Zudem erreicht es in professionellen Aufgaben – wie der Planung molekularer Synthesen, der Vorhersage von Reaktionsbedingungen sowie der Abschätzung der thermodynamischen Stabilität von Kristallen – sogar die Leistung von proprietären State-of-the-Art-Modellen. Unsere Modelle sind unter https://huggingface.co/internlm/Intern-S1 verfügbar.