Partage Approfondi Par Les Pionniers De La Recherche HUST/Shanghai AI Lab/Shanghai Jiaotong University : Dernières Réalisations, Expérience Dans La Soumission D'articles À Des Conférences De Premier Plan, Défis De La Collaboration Interdisciplinaire...

L’intelligence artificielle intègre de multiples disciplines telles que l’informatique, les mathématiques, les statistiques et les sciences cognitives, et son développement dépend fortement de la culture de talents interdisciplinaires. Ces dernières années, l’essor de l’IA pour la science a permis à chacun de prendre conscience du potentiel disruptif de l’intégration profonde de l’intelligence artificielle et des disciplines fondamentales. Aujourd’hui, de nombreux chercheurs exceptionnels propulsent la recherche scientifique vers de nouveaux sommets grâce à leur expérience multidisciplinaire. Par exemple:
* Le professeur associé Huang Hong de l'Université des sciences et technologies de Huazhong possède une expérience académique en ingénierie de radiodiffusion et de télévision, en ingénierie de l'information et en informatique.Aujourd’hui, elle se concentre sur la recherche scientifique axée sur les données, notamment l’exploration de données, l’analyse de big data, l’analyse des réseaux sociaux, etc.
* Zhou Dongzhan, jeune chercheur au Centre d'IA pour la science du Laboratoire d'intelligence artificielle de Shanghai, a commencé sa carrière en physique.Il s'est tourné vers l'intelligence artificielle et travaille désormais sur l'application de l'IA aux sciences des matériaux ;
* Zhou Bingxin, chercheur adjoint à l'Institut des sciences naturelles de l'Université Jiao Tong de Shanghai,Elle s'est spécialisée en finance dans ses études de premier cycle, en analyse de données dans ses études de maîtrise et s'est concentrée sur l'apprentissage automatique et l'apprentissage profond dans ses études de doctorat. Aujourd’hui, elle utilise l’apprentissage profond pour résoudre des problèmes dans le domaine biologique, tels que la conception et la modification de protéines basées sur des algorithmes d’apprentissage profond.
Huang Hong : Nos recherches devraient être capables de résoudre véritablement des problèmes pratiques
En tant que professeur associé et directeur de thèse de doctorat/master à l'Université des sciences et technologies de Huazhong, le professeur associé Huang Hong est profondément engagé dans les domaines de l'exploration de données et de l'analyse de mégadonnées depuis de nombreuses années et a publié de nombreux articles en tant que premier auteur/auteur correspondant dans des revues et conférences internationales de premier plan telles que TKDE, TKDD, WWW, IJCAI et WSDM. Cependant, son parcours de recherche scientifique n’a pas été de tout repos.

Se souvenant de ses expériences frustrantes pendant ses études supérieures, la professeure associée Huang Hong a déclaré qu'elle avait révisé un article 28 fois. Lorsqu’elle l’a révisé pour la 25e fois, elle s’est sentie dépassée. Plus tard, avec les encouragements de ses amis et de ses mentors, elle s’est calmée, a réexaminé le document et a constaté qu’il y avait encore de nombreux détails à améliorer. Finalement, grâce à des ajustements et des peaufinages continus, elle a réussi à le publier.
Selon le professeur associé Huang Hong, « la clé de la recherche scientifique est de voir si l'idée de votre article peut réellement résoudre un problème sous un certain aspect et si elle met en avant une motivation de recherche raisonnable. » Sur la base de ce concept,Ses recherches s’orientent sur deux axes : d’une part, l’innovation dans les méthodes d’analyse et d’exploration de données massives ; deuxièmement, développer des applications basées sur les données pour résoudre des problèmes sociaux pratiques.
Dans le domaine de l'innovation méthodologique, l'équipe du professeur associé Huang Hong se concentre principalement sur les réseaux de neurones graphiques et la modélisation de systèmes complexes. Elle croit qu'à l'ère actuelle du big data, afin d'exploiter plus efficacement la valeur des données, une structure graphique peut être utilisée pour représenter les choses qui nous entourent, c'est-à-dire pour modéliser abstraitement les choses comme des nœuds, analyser les relations entre ces nœuds, puis construire une structure graphique.
En outre, leur équipe développe également des applications basées sur les données, telles que l’analyse des réseaux sociaux. Entre 2009 et 2012, le développement des réseaux sociaux était à son apogée, avec l’émergence progressive de plateformes telles que Weibo, Twitter et Facebook. Cela a également incité l'équipe du professeur associé Huang Hong à utiliser les données de ces plateformes pour analyser le développement de la structure du réseau et réaliser des recommandations d'utilisateurs, des analyses de l'opinion publique et d'autres travaux.
« Pendant la pandémie de COVID-19, nous avons analysé les commentaires des médias d'information internationaux sur la Chine et étudié les changements d'attitude des réseaux étrangers envers la Chine, fournissant des données à l'appui de la compréhension des positions extérieures », a déclaré le professeur associé Huang Hong.
Une autre étude de cas intéressante consiste à analyser le statut socio-économique des individus et à l’utiliser pour la planification urbaine.« Nous travaillons avec le département des télécommunications pour obtenir les données du journal de trafic mobile des utilisateurs, identifier les zones d'activité des utilisateurs en analysant leurs positions GPS et les combiner avec les informations sur les prix des logements dans ces zones pour déduire le niveau de la zone dans la ville. » Pour donner un exemple simple, si une personne apparaît fréquemment dans un quartier financier, cela peut signifier qu’elle a un statut socio-économique élevé, tandis que si elle apparaît souvent à proximité d’écoles ou d’établissements d’enseignement, son identité peut être celle d’un étudiant ou d’un éducateur. Sur cette base, les chercheurs peuvent évaluer de manière exhaustive le statut socio-économique des individus et fournir une référence pour la planification urbaine.
En termes d’intelligence industrielle,L’équipe du professeur associé Huang Hong utilise également la technologie de l’intelligence artificielle pour identifier et diagnostiquer automatiquement les défauts des équipements industriels, améliorant ainsi considérablement l’efficacité et la précision de la maintenance des équipements.
Le professeur associé Huang Hong a conclu : « Vous devez être intéressé par la recherche que vous souhaitez faire. » Selon elle, la recherche scientifique est un processus essentiellement ennuyeux qui nécessite beaucoup de patience, mais si vous vous y intéressez vraiment, vous aurez la motivation nécessaire pour persévérer. « C’est aussi la qualité que j’apprécie le plus lors du recrutement des étudiants. »
Zhou Dongzhan : Laissez l'IA générer de nouvelles idées comme les scientifiques
Le Dr Zhou Dongzhan partage également le point de vue du professeur associé Huang Hong : « Si vous n’avez aucun intérêt, il est en effet difficile de faire un meilleur travail. » Selon elle, l’essentiel dans le choix d’une orientation de recherche n’est pas de juger si le domaine est « chaud » ou « populaire ». Les domaines populaires peuvent encore produire des résultats exemplaires dans l’industrie, et les pistes de niche peuvent également découvrir de nouveaux problèmes. Nous devrions sortir de notre zone de confort, éviter les recherches homogènes et choisir de produire des résultats plus solides.
Actuellement, la direction de recherche du Dr Zhou Dongzhan consiste à appliquer les technologies d’IA telles que les grands modèles de langage et les modèles multimodaux à la science des matériaux.Les principaux résultats sont présentés dans la figure ci-dessous :

En janvier dernier,Le laboratoire d'intelligence artificielle de Shanghai a lancé un grand modèle de langage dans le domaine de la chimie appelé « Shusheng Jianyuan ».Explorez des sujets de pointe qui combinent des modèles généraux de grande taille avec des domaines professionnels. Le modèle de langage chimique fonctionne bien sur de nombreuses tâches chimiques de base (liées aux molécules et aux réactions), et de nombreux indicateurs dépassent GPT-4. Considérant l’importance des connaissances externes dans la recherche chimique,L'équipe a ajouté le mécanisme de génération augmentée de récupération (RAG) au modèle de langage.Pour réduire les problèmes d’hallucination du modèle. Considérant la diversité des modalités de données chimiques,L’équipe a également développé un modèle de version multimodale.Cette version du modèle fonctionne bien en matière de reconnaissance moléculaire et de raisonnement chimique multimodal, et de nombreux indicateurs dépassent GPT-4v. Étant donné l’importance d’utiliser des outils scientifiques pour les modèles,L'équipe a développé une boîte à outils d'agent.Intégrez plus de 50 outils chimiques, couvrant la recherche, le calcul, les molécules et les réactions, afin que le modèle puisse effectuer les tâches associées plus efficacement.
Sur la base des recherches ci-dessus, l’équipe du laboratoire souhaite que l’IA prenne en charge des tâches plus complexes, plutôt que de simplement laisser le grand modèle linguistique rester au niveau des questions-réponses. L’équipe a donc commencé à étudier si l’IA pouvait générer de nouvelles hypothèses de recherche scientifique comme le feraient les scientifiques.

Comme le montre la figure ci-dessus, l’IA est utilisée pour générer automatiquement des hypothèses de recherche en fonction du contexte et des problèmes de recherche donnés. Par exemple, si vous souhaitez étudier un certain type de batterie et rechercher des matériaux et des composants qui répondent à des propriétés spécifiques, vous pouvez générer des idées scientifiques de haute qualité simplement en découplant le contexte de recherche et l'inspiration et en combinant le système MOOSE-CHEM et ses opérations multi-agents intégrées.

Les recherches ont montré que la formulation d’hypothèses scientifiques est un processus de raisonnement complexe, difficile à générer directement en une seule étape. L’équipe a donc démantelé le processus, en recherchant de manière itérative l’inspiration et les hypothèses, et en recherchant davantage les hypothèses générées pour s’assurer que les hypothèses scientifiques finales formulées étaient plus solides et plus diversifiées.
Parallèlement, l’équipe a également construit une hypothèse scientifique générée par l’évaluation du Benchmark. Comme le montre la figure ci-dessous, l’étude a révélé que les modèles présentant de meilleures performances ont des capacités de récupération plus fortes.

En outre, l’étude a également confirmé que dans les tâches liées à l’électrochimie, le modèle peut générer des hypothèses scientifiques exécutables plutôt que de simples concepts généraux. Par exemple, ses hypothèses scientifiques incluent actuellement les composants de base du matériau, tels que le ruthénium métallique, le dopage à l'azote, etc.L'équipe du laboratoire travaille déjà avec des groupes de recherche pertinents, dans l'espoir de promouvoir l'application pratique du système et d'en faire un véritable assistant de recherche scientifique.

Permettre à l’IA de générer des idées de recherche scientifique et même de promouvoir l’innovation scientifique est l’objectif vers lequel travaille l’équipe du laboratoire. En repensant à sa propre expérience académique, Zhou Dongzhan a admis que son attitude en matière de recherche scientifique avait été profondément influencée par le physicien Wu Jianxiong : « l'écart dans les résultats de la recherche peut provenir d'un très petit problème de détail. » C’est pourquoi elle souligne toujours que l’attention aux détails et la réflexion approfondie sont les clés pour réaliser des percées dans la recherche scientifique.
Zhou Bingxin : Le modèle protéique développé par ses soins se classe au premier rang de la liste mondiale faisant autorité
Dans la trajectoire de croissance de chacun, il peut y avoir une « idole » qui a une influence subtile sur les études, la carrière et même la planification de la vie. Parlant de son « idole de recherche scientifique », le Dr Zhou Bingxin a déclaré : « La raison pour laquelle j'ai choisi de faire de la recherche scientifique a été largement influencée par mon directeur de thèse. » Selon Zhou Bingxin, son directeur de thèse est une personne très responsable, sérieuse, patiente, accessible et qui répond aux messages des étudiants en quelques secondes. Il l'aidait même à modifier le code mot par mot et à vérifier la dérivation de la formule ligne par ligne. « J’espère qu’à l’avenir je pourrai être comme mon mentor et considérer la formation des étudiants comme quelque chose de très important. »
Lorsqu'il s'agit de choisir la direction de la recherche scientifique, Zhou Bingxin estime qu'il n'existe pas de « chemin correct » unique. La clé est de trouver le chemin qui vous convient le mieux et de vous y tenir. « Cela dépend de vos préférences et de votre tolérance au risque. Tant que vous êtes satisfait, inutile de suivre aveuglément la tendance. »
Zhou Bingxin a également partagé certaines des recherches menées par l’équipe au cours des dernières années, en particulier l’exploration de l’IA dans la modification des protéines.
Dans l’industrie, les enzymes sont utilisées dans le développement de médicaments, la surveillance des maladies et la dégradation du plastique, entre autres applications. Cependant, les protéines naturelles proviennent de la nature et ont leur propre environnement de vie spécifique (comme une pression et une température élevées), qui peuvent ne pas répondre aux besoins industriels. Par conséquent, ils doivent être modifiés pour améliorer leur activité catalytique, leur stabilité thermique, leur affinité de liaison et leur sélectivité du substrat.

Ces dernières années, la conception de protéines assistée par l’intelligence artificielle a progressivement émergé.Comme le montre la figure ci-dessous, pour faire simple, le modèle auto-supervisé est d'abord autorisé à apprendre une grande quantité de données protéiques (séquence, structure, informations évolutives), puis une petite quantité d'ensembles de données étiquetés liés aux tâches en aval (prédiction de l'activité des protéines) sont utilisés pour former un modèle de prédiction. En fonction des besoins spécifiques (amélioration de l'activité), la structure ou la séquence de la protéine est ré-optimisée ou entièrement conçue.

Une fois qu'une séquence protéique est modifiée, elle peut être transfectée dans des systèmes d'expression tels que E. coli et la levure pour que l'équipe biologique puisse l'exprimer et la purifier. La protéine purifiée est ensuite testée pour ses propriétés biochimiques, telles que l’activité, la stabilité et l’affinité de liaison, qui dépendent de l’application spécifique de la protéine. Les algorithmes peuvent également apporter une aide dans ce processus, par exemple en prédisant l’expressivité, la solubilité et l’activité d’une protéine donnée. Enfin, seule la séquence protéique recommandée par l’algorithme doit être utilisée dans l’expérience, ce qui peut encore réduire les coûts.

Comme le montre la figure ci-dessous,Les travaux de l'équipe de Zhou Bingxin se concentrent sur divers modules d'ingénierie des protéines, notamment, mais sans s'y limiter, la déduction de séquences à partir de la structure des protéines et la déduction de séquences à partir de la fonction.« Nous espérons développer nos propres outils et explorer comment combiner ces outils avec des expériences biologiques ultérieures pour former un cycle complet, réalisant ainsi une optimisation itérative entre les expériences sèches (simulations informatiques) et les expériences humides (expériences biologiques réelles). »

Jusqu’à présent, les outils développés par l’équipe ont obtenu d’excellents résultats dans les expériences sèches et humides.Par exemple, sur la liste mondiale faisant autorité ProteinGym, ses modèles ont respectivement occupé les première et deuxième positions.

De plus, l’hormone de croissance développée par l’équipe,La première production à grande échelle au monde (5 000 litres) de protéines conçues par l’IA a été réalisée.Ils ont également modifié avec succès l'enzyme EPS-G7, améliorant sa spécificité et son activité catalytique, et réduisant les coûts de production de 90%, brisant ainsi les restrictions du monopole d'importation.

En plus de la transformation d'un seul point ou de quelques points,Ils ont également généré la séquence protéique complète dans son intégralité.Par exemple, les protéines de la série Ago (survie à haute température) utilisées pour le cisaillement des acides nucléiques sont modifiées de manière à pouvoir maintenir une bonne activité à température ambiante et conviennent aux travaux de cisaillement dans les kits de test d'acides nucléiques.

Le plus gros problème entre les praticiens de l’IA et les praticiens de la science est la communication
Il convient de mentionner que, comme le domaine du Dr Zhou Bingxin est hautement interdisciplinaire, afin de promouvoir la communication entre les praticiens de l’IA et les praticiens de la science, leur équipe a compilé une grande quantité de données, d’outils et de modules de détection de tâches en aval.Et je l'ai intégré dans une bibliothèque d'outils appelée VenusFactory.

Selon le Dr Zhou Bingxin, les compétences en communication sont cruciales dans la collaboration entre l’IA et la science. « Lorsque j'ai commencé à travailler en biologie interdisciplinaire, de nombreux partenaires souhaitaient collaborer avec nous, mais je ne comprenais pas ce qu'ils disaient. Aujourd'hui, grâce à ma propre compréhension, je peux transformer les problèmes scientifiques qu'ils soulèvent en problèmes d'ingénierie et trouver les algorithmes correspondants pour les résoudre. »
Le Dr Zhou Dongzhan partage également ce point de vue. Elle a souligné : « Lorsque l'on travaille avec des universités, des instituts de recherche ou des entreprises, il est essentiel de s'assurer que les deux parties comprennent le problème au même niveau. Nous devons permettre à nos partenaires scientifiques de comprendre l'état actuel de la technologie de l'IA, et également à l'équipe technique de comprendre les problèmes les plus critiques. »
Le professeur associé Huang Hong a ajouté qu'il est très important de maîtriser les connaissances de base en matière de collaboration interdisciplinaire. Elle a rappelé sa collaboration avec l'équipe du professeur Luo Jiade du département de sociologie de l'université Tsinghua. Au début, l’équipe de sociologie proposait des questions de recherche et l’équipe technique fournissait un soutien à l’analyse des données et était responsable de la conception expérimentale. Au fil du temps, l’équipe technique a progressivement maîtrisé les connaissances de base de la sociologie, a commencé à poser des questions de manière indépendante et à discuter avec l’équipe de sociologie. Cette collision d’idées a donné lieu à de nombreux résultats de recherche.
Il convient de mentionner que l’ICLR 2025 et d’autres conférences de premier plan annoncent récemment leurs résultats, et qu’il existe également plusieurs conférences importantes qui n’ont pas encore atteint leurs dates limites.Nous avons également profité de cette occasion pour permettre aux enseignants de partager leurs expériences en matière de soumission d'articles aux principales conférences sur l'IA, comme indiqué ci-dessous :
1. Lisez attentivement l’appel à contributions.Clarifier les exigences d’acceptation des articles dans différentes conférences de haut niveau afin d’éviter de perdre des opportunités de soumission.
2. Faites attention aux détails de l’article.Le format doit être correct, les images doivent être claires et la mise en page doit être agréable.
3. Clarifiez la date limite de soumission.Toutes les expériences doivent être réalisées au moins une semaine à l’avance pour garantir l’intégrité de l’article et réduire la marge de questionnement des évaluateurs.
4. Questions de recherche,Si l’idée de l’article résout réellement un certain problème ; si la motivation de la recherche est raisonnable.
5. Conseils pour la rédaction de documents
* Plan de travail suggéré : Tout d’abord, présentez le contexte. Deuxièmement, quelles étaient les études précédentes et quels problèmes existaient. Troisièmement, quel est notre travail ? Nous veillons à ce que votre idée soit transmise au réviseur et qu'il soit convaincu.
* De plus, pour garantir la logique de l’article, chaque question de recherche et la vérification expérimentale ultérieure doivent être liées entre elles et cohérentes.
6. À propos du rejet :Il est normal que votre manuscrit soit rejeté. Les évaluateurs ont des préférences différentes. Vous pouvez essayer de le soumettre plusieurs fois.