Bilan Des Activités 丨Université Jiaotong De Shanghai/Université Du Zhejiang/Université Tsinghua/OpenBayes De Nombreux Experts, Couvrant Les Soins Médicaux/l'information Géographique/les Systèmes Complexes Urbains/les Nouveaux Paradigmes De La Recherche Scientifique

La « préférence » du prix Nobel pour l’IA cette année a une fois de plus attiré l’attention du public sur l’IA pour la science. On peut même dire qu’il s’agit d’un événement marquant, indiquant qu’un nouveau paradigme de recherche scientifique est devenu une tendance inévitable. En repensant au développement de la science, de la science expérimentale à la science théorique, puis à la science computationnelle et à la science à forte intensité de données, chaque changement de paradigme a grandement favorisé le progrès de la civilisation humaine. Tout au long du processus itératif, le rôle central des données n’a jamais changé.
Aujourd’hui, à l’ère de l’IA pour la science, la valeur des données peut être davantage explorée.Quelles innovations la recherche scientifique fondamentale va-t-elle apporter ? Comment les chercheurs dans les domaines verticaux adoptent-ils l’IA ?
Face à la tendance de développement de l'IA pour la science, HyperAI a promu le développement de l'IA4S nationale à travers diverses formes telles que l'interprétation des réalisations de pointe, la publication de rapports sur les entreprises typiques et l'hébergement d'activités académiques, et a construit une plate-forme de communication pour les chercheurs scientifiques nationaux. 2 novembre,En tant que communauté de coproduction, HyperAI a organisé un forum d'IA open source sur l'IA pour la science lors du COSCon'24, la 9e conférence annuelle chinoise sur l'Open Source et le 10e carnaval anniversaire de l'Open Source Society.
Nous sommes honorés d'avoir invité Wang Chenhan, fondateur et PDG d'OpenBayes Bayesian Computing, Qi Jin, chercheur spécialement nommé à l'École des sciences de la Terre de l'Université du Zhejiang, Xie Weidi, professeur associé titulaire à l'Université Jiao Tong de Shanghai et jeune scientifique au Laboratoire d'intelligence artificielle de Shanghai, et Ding Jingtao, chercheur postdoctoral au Centre des sciences urbaines et de l'informatique, Département de génie électronique, Université Tsinghua.
Dans ce forum, quatre conférenciers ont partagé des connaissances approfondies en matière de vulgarisation, d'introduction de cas, d'analyse des tendances et d'autres aspects sur des sujets tels que l'intelligence artificielle médicale (AI4Health), l'intelligence artificielle de l'information géographique (GeoAI), la plate-forme cloud intelligente de recherche scientifique et les systèmes complexes urbains pilotés par l'IA.
Alors,Nous rapporterons ensuite les points clés du partage de chaque conférencier sous forme de textes et de vidéos.Restez à l'écoute!
Un nouveau paradigme de recherche scientifique porté par l'IA : une mise à niveau complète des méthodes statistiques par l'intelligence artificielle
OpenBayes Bayesian Computing est un fournisseur de services d'intelligence artificielle de premier plan en Chine. Dans le cadre du processus d’autonomisation des meilleures universités et institutions de recherche nationales, elle possède également une connaissance approfondie du développement de l’IA pour la science. Concernant la valeur de l’apprentissage automatique dans la promotion de la recherche de pointe,Le fondateur et PDG de l'entreprise, Wang Chenhan, a proposé une formule innovante : données d'échelle X structure du modèle = réalisations de la recherche scientifique en IA – recherche traditionnelle.
Autrement dit, dans le processus de recherche scientifique, en appliquant des données à grande échelle à des structures de modèles efficaces, il est possible de dépasser considérablement les méthodes traditionnelles dans des sujets de recherche pratiques dans n'importe quel domaine industriel. C’est une raison importante pour laquelle la recherche scientifique basée sur l’IA a connu une croissance de 2 à 5 fois supérieure au cours des deux dernières années.

Dans le même temps, Wang Chenhan a également souligné que si la structure du modèle reste inchangée et que la quantité de données est augmentée aveuglément, des effets marginaux peuvent se produire, rendant difficile l’amélioration des performances ; de même, lorsque l’échelle des données est certaine, les paramètres du modèle ne sont pas nécessairement plus grands, mieux c’est.Ce n’est que lorsque l’échelle des données et l’échelle des paramètres sont augmentées de manière égale que le taux d’erreur de prédiction chutera à un niveau inférieur.
En outre, il s’est concentré sur la comparaison des différences entre les méthodes de recherche traditionnelles et les méthodes de recherche en IA. Parmi elles, les méthodes de recherche traditionnelles dépendent fortement des caractéristiques des chercheurs eux-mêmes et de leur capacité à définir les problèmes, et n'utilisent que des « petites données », ce qui soulève des doutes quant à leurs capacités de généralisation et d'expansion.La méthode de recherche de l'IA nécessite l'introduction de données à grande échelle et de haute qualité et l'utilisation de l'apprentissage automatique pour l'extraction de caractéristiques, afin que les résultats de recherche scientifique produits soient toujours efficaces dans les problèmes du monde réel.
Enfin, Wang Chenhan a également présenté comment le calcul bayésien d'OpenBayes permet l'IA pour la science.Encapsulez les éléments de données de recherche scientifique tels que les ensembles de données open source, les didacticiels IA/HPC, les modèles open source/privés, etc. dans un logiciel de cluster.Aidez les chercheurs scientifiques à établir une connexion unique dans la construction de modèles, le raisonnement de modèles, le calcul de logiciels industriels, etc.
GeoAI et ses applications géoscientifiques interdisciplinaires
Dans le domaine des sciences de l’information géographique, le développement des technologies d’observation stéréoscopique dans l’air, l’espace, la terre et le sous-sol a favorisé une explosion des données, donnant naissance au concept de big data spatio-temporel. Cependant, les données massives générées par les processus spatio-temporels de différentes échelles constituent également un défi majeur pour l’exploration de l’information.
Le Dr Qi Jin, chercheur spécialement nommé à l'École des sciences de la Terre de l'Université du Zhejiang, a déclaré :L’analyse de régression des relations géographiques est un sujet brûlant dans la recherche en modélisation géographique.Le développement de nouvelles méthodes d’analyse de régression spatiale et l’amélioration de la capacité à analyser et à exploiter les relations géographiques ont une valeur théorique importante et une signification pratique pour la compréhension des processus sociaux et des phénomènes géographiques.

En réponse à cela, le Dr Qi Jin et son équipe ont intégré l’idée de pondération spatiale au modèle de réseau neuronal.Un modèle de régression pondéré par réseau neuronal géographique (GNNWR) est proposé.La méthode de régression spatiale a été élargie pour ajuster et expliquer les relations non linéaires entre les éléments géographiques. en même temps,L'équipe a également développé une bibliothèque de modèles open source basée sur PyTorch - modèle de régression intelligent spatio-temporel.Son système méthodologique a soutenu plus de 30 études en géographie, géologie, océanographie, atmosphère et autres domaines.
En termes d'application, il a présenté les performances du modèle GNNWR dans des scénarios tels que la prévision des prix des logements urbains, l'analyse de la pollution atmosphérique et la modélisation de l'environnement écologique offshore :
* Établir des relations spatio-temporelles entre des points faiblement échantillonnés et des points inconnus le long de la côte et résoudre les poids spatio-temporels non stationnaires pour obtenir une distribution à haute résolution spatio-temporelle du silicate dissous (DSi) dans les eaux côtières ;
* Le GNNWR peut décrire avec précision la non-stationnarité spatiale dans les environnements urbains, permettant ainsi la modélisation par régression des processus géographiques urbains tels que les prix des logements ;
* En utilisant les données AOD, DEM, les données des facteurs climatiques et les données PM2,5 traitées collectées par les sous-stations, établir une relation de régression spatiale non stationnaire et estimer la concentration de PM2,5 ;
* L'intégration de la théorie d'interprétabilité de Shapley dans le GNNWR permet une prédiction et une interprétation précises de la minéralisation géologique dans des environnements spatiaux complexes.
L'objectif principal de l'équipe : construire un système d'intelligence artificielle médicale générale
Xie Weidi, professeur associé titulaire à l'Université Jiao Tong de Shanghai et jeune scientifique au Laboratoire d'intelligence artificielle de Shanghai, est profondément impliqué dans la vision par ordinateur. De retour en Chine en 2022, il se consacre à la recherche sur l’intelligence artificielle médicale. Dans ce forum,Il a partagé les réalisations de l'équipe sous plusieurs angles, notamment la construction d'ensembles de données open source et le développement de modèles.
Le professeur Xie Weidi a expliqué que la plupart des connaissances en médecine, en particulier la médecine fondée sur des preuves, sont résumées à partir de l’expérience humaine. Si un débutant peut épuiser tous les livres de médecine, il peut au moins devenir un expert médical en théorie. Donc,Au cours du processus de formation du modèle, nous espérons également y injecter toutes les connaissances médicales.

Cependant, dans le domaine médical, les données de haute qualité sont relativement rares en raison de problèmes de confidentialité.Ainsi, après leur retour en Chine, le professeur Xie Weidi et son équipe ont commencé à constituer un ensemble de données médicales à grande échelle.Spécifiquement:
* Collecté 1,6 million de paires d'images-légendes à grande échelle à partir de PubMed Central et construit l'ensemble de données PMC-OA ;
* Génération de 227 000 paires de questions-réponses visuelles médicales à partir du PMC-OA pour former le PMC-VQA ;
* Un ensemble de données Rad3D a été construit en collectant 53 000 cas et 48 000 paires d'images-légendes multiples de l'espèce Radiopaedia.
* PubMed Central (PMC) est une base de données gratuite en texte intégral créée et maintenue par le National Center for Biotechnology Information des États-Unis, spécialisée dans les articles scientifiques en libre accès dans les domaines de la biomédecine et des sciences de la vie.
* Radiopaedia offre un accès gratuit et de haute qualité aux connaissances en radiologie et en imagerie médicale et constitue une plateforme éditoriale collaborative et ouverte où les radiologues/étudiants et autres professionnels de la santé peuvent contribuer à des cas, des articles et des exemples d'imagerie.
En termes de construction de modèles,Il a principalement présenté le modèle de langage spécifique à la médecine ou modèle de langage visuel développé par l'équipe.Par exemple, PMC-LLaMA, le modèle médical multilingue MMedLLaMA et les modèles de segmentation généraux tels que SAT.
Une approche de modélisation générative spatio-temporelle pour les systèmes urbains complexes
Le Dr Jingtao Ding du Centre de recherche scientifique urbaine et informatique du Département de génie électronique de l'Université Tsinghua se concentre sur la modélisation générative et l'application de systèmes complexes spatio-temporels pilotés par l'IA.Le Dr Jingtao Ding s’est concentré sur l’introduction de l’IA générative spatio-temporelle pour la modélisation de systèmes urbains complexes.
Le Dr Ding Jingtao a expliqué que les principales difficultés rencontrées actuellement dans la modélisation des systèmes urbains complexes comprennent la prédominance des données spatio-temporelles multimodales de grande dimension ; l’ampleur du système et l’interaction entre les différents éléments ne peuvent être ignorées ; la distribution des données de chaque système est très différente, ce qui rend impossible l'utilisation d'un modèle universel, etc.

En réponse à cela, lui et son équipe ont commencé à explorer l’IA générative spatio-temporelle pour modéliser des systèmes urbains complexes.Un modèle de diffusion guidé par des connaissances physiques est proposé pour la simulation des flux de foule ; un modèle de diffusion amélioré par la dynamique du réseau est proposé pour la prédiction de la résilience du système ; et un GPT spatiotemporel amélioré par un apprentissage rapide est proposé pour la prédiction spatiotemporelle générale.
Spécifiquement:
* Le modèle de simulation de flux piétonnier SPDiff a obtenu une amélioration des performances de 6,5%-37,2 sur la base d'un ensemble de données de flux piétonnier réel, ainsi qu'une meilleure capacité de généralisation sous des tailles d'échantillon réduites ;
* Le modèle de prédiction de la résilience du système génère des échantillons d'observation de systèmes résilients/non résilients basés sur le modèle de diffusion, en utilisant seulement 20 (2%) échantillons étiquetés et en maintenant une précision de prédiction de 87% (score F1) ;
* Le modèle universel de prédiction spatio-temporelle UniST collecte plus de 20 ensembles de données spatio-temporelles et plus de 130 millions de points d'échantillonnage spatio-temporels. Il utilise un réseau de mémoire spatio-temporelle externe pour stocker des modèles spatio-temporels valides et générer des vecteurs rapides pour réaliser la généralisation de la migration.
Derniers mots
En tant que l'une des premières communautés open source à s'intéresser au développement de l'IA pour la science, HyperAI continuera de prêter attention aux réalisations innovantes de pointe au pays et à l'étranger, et de fournir à chacun des interprétations et des rapports pratiques. Parallèlement, nous construisons également une plateforme de communication et d’échange pour les chercheurs à travers une variété de diffusions en direct en ligne et de forums académiques hors ligne. Les groupes de recherche engagés dans des recherches connexes sont invités à nous soumettre des articles ou à partager leurs derniers résultats de recherche !
