HyperAI
Back to Headlines

GeoGPT 问世:生成式 AI 正在重塑地球科学研究范式

il y a 3 jours

L’intelligence artificielle générative (IA générative) connaît une évolution fulgurante, mais son application dans les sciences demeure limitée par la complexité des problèmes scientifiques, bien supérieure à la capacité de traitement des grands modèles généraux comme ChatGPT. Face à ce défi, GeoGPT, un modèle fondamental spécialisé en sciences de la Terre, a été officiellement lancé le 27 avril 2025, ouvert à tous les chercheurs du monde entier. Inspiré par le programme international DDE (Deep-Time Digital Earth), GeoGPT a été conçu et développé sous la direction de l’Institut Cloud栖 (Yunqi) et du Laboratoire Zhijiang, en collaboration avec 25 institutions internationales et plus de 400 experts géologiques. Construit sur une base open source, GeoGPT intègre des données du monde géologique ancien et des algorithmes d’intelligence artificielle pour offrir des fonctionnalités clés : analyse de littérature, extraction de données, construction de graphes de connaissances spécialisés, assistant personnelisé, reconnaissance et interrogation de cartes géologiques, ainsi que génération d’idées de recherche. Déjà appliqué à la construction de bases de données sur les roches magmatiques, la classification des fossiles ou la génération intelligente de cartes géologiques, GeoGPT ne se contente pas d’assister les chercheurs : il marque une révolution des paradigmes de recherche géologique, en faisant évoluer la science de la Terre vers une approche plus computationnelle, plus data-driven et plus modélisée. Aujourd’hui, GeoGPT a dépassé 40 000 utilisateurs inscrits dans 135 pays, dont plus de 25 % sont internationaux. Il a été sélectionné par l’Union internationale des télécommunications (UIT) dans son rapport AI for Good Innovate for Impact Use Cases, et a reçu le prix des meilleures pratiques innovantes lors du sommet mondial AI for Good à Genève en 2025. L’un des atouts majeurs de GeoGPT réside dans sa flexibilité architecturale : les utilisateurs peuvent choisir librement entre des modèles fondamentaux comme Llama3, DeepSeek R1, Mixtral, Qwen2.5 ou encore le modèle scientifique auto-développé 021 du Laboratoire Zhijiang. En outre, une version optimisée, GeoGPT-R1-Preview, a été conçue pour une inférence rapide et une mise en œuvre efficace sur le terrain. Selon Chen Hongyang, directeur adjoint du Centre de recherche sur les données scientifiques du Laboratoire Zhijiang : « Nous avons décomposé le modèle fondamental de manière innovante, en combinant les forces des grands modèles ouverts tout en intégrant une expertise géologique profonde. Même si les modèles de base évoluent, GeoGPT reste capable d’adapter rapidement ses versions. » Ce modèle repose sur une approche à trois dimensions pour surmonter les principaux freins de la recherche géologique : données hétérogènes, données longues en queue mal exploitées, et barrières interdisciplinaires. Pour enrichir sa base de données, l’équipe a extrait environ 140 milliards de tokens depuis Common Crawl, en sélectionnant uniquement les publications sous licence CC BY ou CC BY-NC. Aujourd’hui, GeoGPT couvre 15 éditeurs géologiques, 182 revues scientifiques et 288 000 articles accessibles gratuitement. Un processus rigoureux — extraction, traitement PDF, annotation, validation — garantit une qualité supérieure à celle des jeux de données comme Fineweb ou DCLM. Pour résoudre les problèmes de synonymie et de définitions divergentes entre disciplines, GeoGPT utilise une architecture de graphe de connaissances basée sur une ontologie, avec une interface interactive pour construire une base de connaissances complète, fiable et sémantiquement unifiée. Une mécanique d’actualisation dynamique permet à la connaissance de s’évoluer en temps réel, assurant une pertinence constante. Depuis 2023, GeoGPT a connu 7 itérations majeures, marquées par des avancées technologiques significatives : - Résolution du « oubli catastrophique » via des stratégies d’entraînement progressif et des méthodes de fusion de modèles ; - Développement de techniques d’enrichissement de données combinant synthèse et micro-ajustement ; - Optimisation des algorithmes de découpage de documents, notamment pour les tableaux complexes, grâce à une analyse sémantique et contextuelle ; - Intégration d’un cadre « décomposition des besoins - traitement hiérarchique » qui réduit le temps d’extraction de données de plusieurs jours à moins d’un jour. Grâce à l’ajustement par instruction et l’apprentissage par renforcement, GeoGPT a intégré les schémas de raisonnement des experts géologiques, lui permettant de résoudre des problèmes complexes avec une capacité proche de celle d’un chercheur humain. Des collaborations internationales ont déjà démontré son impact : avec le professeur Wang Tao (Académie chinoise des sciences géologiques), GeoGPT a automatisé tout le flux de recherche sur les roches magmatiques — de la question scientifique à la génération de cartes — augmentant drastiquement l’efficacité. Avec le professeur James Ogg (Université Purdue), il a permis d’extraire en 4 mois les données de 3 volumes du Treatise on Invertebrate Paleontology (50 volumes, 100 000 espèces fossiles), un projet autrefois considéré comme impossible, réduisant le temps de travail de 75 %. Selon Chen Hongyang, « l’IA + géologie, ce n’est pas seulement une fusion technologique, mais une innovation institutionnelle. Seuls les experts des deux domaines, réunis autour d’un même objectif, peuvent comprendre les vrais enjeux. C’est en brisant les frontières disciplinaires que naît un modèle fondamental véritablement transversal. » Aujourd’hui, GeoGPT ouvre la voie à une nouvelle ère de la recherche géologique : non seulement en accélérant les processus scientifiques, mais aussi en stimulant l’innovation grâce à sa capacité à formuler des hypothèses originales et à les valider systématiquement. À terme, il pourrait intégrer l’ensemble du cycle de recherche — hypothèse, traitement, visualisation, rapport — pour générer automatiquement des publications scientifiques robustes. En somme, GeoGPT n’est pas un simple outil : c’est un pont entre données, intelligence artificielle et savoir humain, qui redéfinit la manière dont nous comprenons la Terre.

Related Links