Le modèle multimodal « Shu Shen » Intern-S1 de Shanghai AI Lab révolutionne la science avec des performances exceptionnelles
Le 26 juillet, la 2025 World Artificial Intelligence Conference (WAIC) a lancé officiellement. Lors de la session plénière des frontières scientifiques de l'après-midi, le Shanghai Artificial Intelligence Lab (Shanghai AI Lab) a dévoilé et rendu libre le modèle multimodal « Shu Shen » nommé Intern-S1. Dans le processus de découverte scientifique, les analyses basées sur un seul mode sont souvent insuffisantes pour capturer pleinement les phénomènes complexes, surtout lorsqu'il s'agit de recherches interdisciplinaires. Intern-S1 intègre les forces de la famille de modèles Shu Shen, offrant un équilibre élevé entre les performances linguistiques et multimodales, tout en intégrant des connaissances interdisciplinaires. Il s'agit du premier modèle open source capable de comprendre et d'appliquer des connaissances scientifiques, avec des performances optimales parmi les modèles open source multimodaux. En même temps, la plateforme de découverte scientifique Shu Shen, Intern-Discovery, a également été lancée, permettant d'améliorer les capacités des chercheurs, des outils et des objets d'étude, et d'orienter la recherche scientifique vers une phase de « Scaling Law ». Le site d'essai d'Intern-S1 est accessible à l'adresse https://chat.intern-ai.org.cn, et le code source est disponible sur GitHub (https://github.com/InternLM/Intern-S1), HuggingFace (https://huggingface.co/internlm/Intern-S1-FP8) et ModelScope (https://modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1). Alors que les grands modèles continuent de progresser dans des domaines comme la conversation, le dessin ou la génération de code, le domaine de la recherche scientifique attend encore un partenaire véritablement « expert en science ». Bien que les modèles courants soient performants en traitement du langage naturel ou en reconnaissance d'images, ils montrent des lacunes importantes lorsqu'ils doivent gérer des tâches complexes, exigeant une grande précision, une expertise spécifique et une capacité de raisonnement avancée. D'une part, les modèles open source actuels manquent souvent d'une compréhension approfondie des données scientifiques complexes. D'autre part, les modèles fermés, bien que plus performants, présentent des obstacles d'implémentation élevés et une faible transparence, ce qui rend leur utilisation coûteuse et peu contrôlable pour les chercheurs. Intern-S1 introduit un « moteur d'analyse scientifique multimodale », capable de comprendre avec précision des données scientifiques complexes comme les formules chimiques, les structures protéiques ou les signaux sismiques. Il possède également des capacités avancées pour des tâches de recherche, telles que la prédiction des chemins de synthèse de composés, l'évaluation de la faisabilité des réactions chimiques ou la détection d'événements sismiques. Cela permet à l'IA de passer du rôle de « chatbot » à celui de « collaborateur scientifique », et de révolutionner la productivité de la recherche. Grâce à sa capacité d'analyse scientifique, Intern-S1 dépasse des modèles fermés de pointe comme Grok-4 sur des tâches multidisciplinaires. Sur le plan multimodal, il est également supérieur à des modèles open source comme InternVL3 et Qwen2.5-VL, se positionnant ainsi comme un « expert généraliste » dans le domaine scientifique. Grâce à ses capacités avancées en perception et intégration multimodales, le Shanghai AI Lab a collaboré avec le Laboratoire de Lintel, l'Université de Shanghai Jiao Tong, l'Université Fudan et le MIT pour créer un système de « médecins virtuels de maladies » nommé « Yuan Sheng » (OriGene). Ce système a déjà identifié de nouveaux cibles thérapeutiques, comme GPR160 et ARG2, dans les domaines du traitement du cancer du foie et du cancer colorectal, et a été validé par des échantillons cliniques et des expériences animales. La famille de modèles Shu Shen, lancée en 2023, inclut des modèles comme InternLM (langage), InternVL (multimodal), InternThinker (raisonnement). Le modèle Intern-S1 s'appuie sur une approche « généraliste-spécialiste » pour intégrer des données scientifiques de manière optimale. Il utilise un Tokenizer dynamique et un encodeur de signaux temporels, permettant de traiter efficacement des données scientifiques hétérogènes, comme les formules chimiques, les séquences protéiques, les courbes de luminosité astronomique ou les signaux d'ondes gravitationnelles. Le coût des apprentissages par renforcement, devenu essentiel pour les grands modèles, a été réduit de 10 fois grâce à des innovations techniques et algorithmiques. Le système d'entraînement utilise une approche de séparation entre entraînement et inférence, ainsi qu'un moteur d'inférence personnalisé en FP8. Le modèle a également été entraîné à l'aide d'une méthode de « mélange de récompenses », combinant des signaux de récompense variés pour améliorer l'efficacité et la stabilité. Depuis son lancement open source en 2023, le modèle Shu Shen a vu plusieurs itérations et a permis de réduire les barrières à l'usage des grands modèles. Le laboratoire a également rendu libre un écosystème complet d'outils, incluant des cadres d'entraînement, de micro-ajustement, de déploiement et d'évaluation. Récemment, il a également ouvert le cadre de multi-agents Intern·Agent, qui s'applique à 12 tâches de recherche dans des domaines comme la chimie, la physique ou la biologie. Ce cadre améliore non seulement l'efficacité de la recherche, mais ouvre aussi la voie à des systèmes autonomes capables de s'apprendre et d'évoluer. À l'avenir, le Shanghai AI Lab continuera d'ouvrir les sources d'Intern-S1 et de son écosystème complet, en les rendant accessibles gratuitement, tout en proposant des services en ligne. Il souhaite ainsi collaborer avec la communauté scientifique pour développer un assistant IA plus compétent et plus proche des besoins de la recherche.