Sélectionné Pour L'acl 2024 ! L'Université Du Zhejiang Lance Le Premier Modèle De Langage Océanique OceanGPT, Faisant De L'intelligence Incarnée Sous-marine Une Réalité

Les outils d’IA, notamment les grands modèles de langage (LLM), modifient progressivement le paradigme scientifique.Classé par Nature comme l'un des événements scientifiques à suivre en 2024.En tant qu'outil essentiel dans le domaine de l'exploration de données textuelles,Les grands modèles linguistiques peuvent extraire des informations scientifiques clés, des modèles et des tendances à partir de quantités massives de données textuelles.Cela permettra d’approfondir la compréhension de différentes disciplines et de fournir un soutien et des informations solides pour les processus de recherche scientifique, la prise de décision et la résolution de problèmes complexes.
Par exemple,Biomédecine,Microsoft a formé le modèle de langage BioGPT sur des millions d'articles scientifiques pertinents dans la base de données PubMed. Le modèle est capable de comprendre des concepts complexes tels que les termes professionnels, les noms de gènes et les séquences de protéines. Par rapport aux modèles non professionnels,BioGPT peut générer rapidement et avec précision des réponses aux questions biomédicales.Effectuez des tâches telles que l'exploration de texte, la rédaction de rapports de laboratoire, la conception moléculaire et la rédaction de revues de littérature.
De même,Dans le domaine des sciences marines,L’utilisation de grands modèles linguistiques pour analyser des quantités massives de données textuelles en sciences marines et comprendre les théories et les méthodes liées aux caractéristiques des océans, aux modèles changeants, au développement et à l’utilisation des ressources est essentielle à la régulation du climat mondial, à la formation des modèles météorologiques, au maintien de la biodiversité et au développement économique futur de l’humanité.
Cependant, les données océaniques multidimensionnelles et multi-échelles sont de grande envergure et riches en types, ce qui rend difficile leur traitement par les méthodes traditionnelles de traitement des données. Dans le même temps, les sciences marines couvrent de multiples domaines et disciplines, chacun ayant ses propres attributs et modèles de données uniques, ce qui nécessite que le LLM dispose d'une réserve plus riche de connaissances professionnelles.Cependant, le LLM actuel ne peut toujours pas répondre pleinement aux besoins spécifiques des océanographes.
À cet égard,L'équipe dirigée par Zhang Ningyu et Chen Huajun de l'École d'informatique et de technologie de l'Université du Zhejiang a proposé le premier grand modèle de langage dans le domaine océanique, OceanGPT.Le modèle excelle dans une variété de tâches scientifiques océaniques et peut répondre à des questions en fonction des instructions des océanographes. Grâce à l'évaluation du référentiel océanographique OCEANBENCH, OceanGPT a non seulement démontré une grande expertise en matière de connaissances dans les tâches scientifiques marines, mais a également acquis des capacités préliminaires d'intelligence incorporée en ingénierie marine.
Adresse du projet OceanGPT :
De plus, pour atténuer la difficulté d’obtenir des données océaniques,Les chercheurs ont également proposé un cadre de génération d’instructions en sciences marines DoInstruct basé sur la collaboration multi-agents.Parmi eux, chaque agent est considéré comme un expert dans un domaine spécifique (tel que la science et la recherche, les ressources et le développement, l'écologie et l'environnement, etc.) et est responsable de la génération de données dans le domaine correspondant.
La recherche s'intitule « OceanGPT : un grand modèle de langage pour les tâches scientifiques océaniques ».Il a récemment été accepté comme document principal de la conférence ACL 2024 (conférence CCF-A), une conférence de premier plan sur le traitement du langage naturel.
Points saillants de la recherche :
* Comparé aux modèles de langage open source existants, OceanGPT, un modèle de langage pour le domaine océanique, peut gérer des tâches océaniques plus professionnelles.
* Le cadre de génération d'instructions en sciences océaniques DoInstruct est très flexible et peut être optimisé et appliqué à différents domaines scientifiques (tels que l'astronomie)

Adresse du document :
https://arxiv.org/abs/2310.02031
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensemble de données : de haute qualité, provenant de 67 633 articles scientifiques sur les sciences marines
Les chercheurs ont rassemblé 67 633 articles dans le domaine des sciences marines au cours des dernières années en tant que corpus original.Nous avons également sélectionné quelques documents historiquement significatifs pour aider LLM à comprendre l’histoire du développement du domaine océanique. Afin d’assurer la diversité, les articles proviennent de différentes sources et couvrent une variété de perspectives et de méthodes de recherche.
Pour garantir la qualité et la cohérence des données,Les chercheurs ont utilisé des expressions régulières pour filtrer les graphiques, les tableaux, les en-têtes, les pieds de page, les numéros de page, les URL et les références ; supprimer les espaces supplémentaires, les sauts de ligne et autres caractères non textuels ; et remplacez ou supprimez les caractères spéciaux, les émoticônes et les caractères déformés. Les documents traités couvrent divers domaines des sciences marines, tels que la physique des océans, la chimie marine, la biologie marine, la géologie, l'hydrologie, etc.
Alors,Les chercheurs ont utilisé un algorithme de hachage pour dédupliquer les données.Cela permet de réduire le risque de surapprentissage lors de la pré-formation du modèle et d’améliorer sa capacité de généralisation.
Étant donné que le corpus des sciences marines contient plusieurs domaines et sujets, chaque sujet possède ses propres caractéristiques et modèles de données uniques. Afin de simuler et d’obtenir efficacement ces données,Les chercheurs ont proposé un cadre de génération d’instructions de domaine DoInstruct.
*Thèmes océaniques : Sur la base de l’expertise des océanographes, les données scientifiques océaniques sont divisées manuellement en cinq thèmes océaniques relativement indépendants, à savoir la science et la recherche, les ressources et le développement, l’écologie et l’environnement, la technologie et l’ingénierie, la vie, la culture et autres.
De haute qualité/professionnel/diversifié, DoInstruct peut générer des données d'instruction marine
Le cadre de génération d'instructions de domaine DoInstruct est basé sur la collaboration multi-agents et peut réaliser efficacement la génération de données océaniques.

Comme le montre la figure ci-dessus, dans le cadre DoInstruct,Les chercheurs ont conçu trois rôles d'agent :Agent évolutif en tant que générateur, agent affiné en tant qu'extracteur de littérature et inspecteur. Chaque agent est considéré comme un expert dans un domaine (sujet) spécifique et est responsable de la génération des données correspondantes.
Agent évolutif comme générateur
Pour constituer l’ensemble de données de base, les chercheurs ont embauché des dizaines d’annotateurs possédant une riche expérience en sciences marines, chacun d’entre eux étant responsable de plusieurs sujets et ayant rédigé manuellement quelques exemples représentatifs pour chaque sujet marin.
Les chercheurs ont ensuite utilisé de grands modèles linguistiques pour imiter les données existantes et générer un grand nombre d’échantillons similaires, tous vérifiés manuellement par des annotateurs. L'ensemble de données d'instructions de semences final comprend 5 catégories principales, plus de 500 sous-catégories et plus de 10 000 échantillons de données.

Après avoir obtenu l'ensemble de données d'instructions de départ, les chercheurs ont sélectionné des échantillons et ont appelé Agent (gpt-3.5-turbo) pour faire évoluer les échantillons sélectionnés.
Comme le montre la figure de gauche, en particulier, en complétant et en élargissant les connaissances de base des échantillons de semences, et en effectuant une analyse, une amélioration et une amélioration raffinées des points de connaissance contenus dans les données de semences, à travers plusieurs séries d'itérations, les chercheurs peuvent rapidement étendre l'ensemble de données de semences existant et élargir l'étendue et la profondeur des informations.
Agent perfectionné comme extracteur de littérature

Les chercheurs ont collecté un corpus annoté par des experts et ont utilisé l'algorithme BM25 pour récupérer des phrases de haute qualité à partir du plus grand corpus Ocean, considérant les deux comme des échantillons candidats de haute qualité. Dans le même temps, les chercheurs ont utilisé l'ensemble de données d'instructions de départ pour affiner gpt-3.5-turbo et ont considéré l'agent affiné comme un extracteur de documents capable d'extraire du texte de haute qualité à partir du corpus océanique massif.
Agent d'audit pour garantir la qualité des données : Agent en tant qu'inspecteur avec contraintes de règles

Pour le grand nombre d'instructions générées, les chercheurs ont utilisé la grammaire, la sémantique, les définitions de base du champ océanique, etc. comme contraintes de règles, ont construit des agents via des invites et ont filtré les données pour garantir que les données d'instruction océanique générées étaient de meilleure qualité.
Pour garantir davantage la qualité des données, les chercheurs ont sélectionné au hasard 101 échantillons TP3T à partir de l'ensemble de données d'instructions généré et ont demandé à des experts volontaires du domaine formés de vérifier si ces échantillons présentaient des erreurs potentielles. Les données finales avaient un score IAA (accord inter-annotateur) de 0,82, ce qui répondait à l’objectif de la recherche.
Comme le montre la figure ci-dessous,Le framework DoInstruct peut utiliser plusieurs agents pour créer rapidement des ensembles de données scientifiques marines et peut être étendu à plus de 150 000 instructions (évolution des données, extraction des données). De plus, le professionnalisme et l’exactitude des données sont également garantis.

Comme le montre la figure ci-dessous, les chercheurs ont mesuré l’effet de génération de données de DoInstruct du point de vue de la qualité des connaissances, de l’expertise et de la diversité.

On peut constater que l’agent générateur évolutif peut améliorer efficacement la richesse des données océaniques. L'agent d'extraction peut améliorer le professionnalisme du contenu et l'agent d'inspection peut améliorer la qualité des données générées. En résumé, la collaboration multi-agents est efficace pour la génération de commandes océaniques.
Basé sur LLaMA-2, OceanGPT est plus performant dans les tâches océaniques
Après avoir obtenu les données d'instructions, les chercheurs ont pré-entraîné OceanGPT pendant 7 jours sur la base de LLaMA-2 en utilisant 6 GPU Nvidia A800.

Après avoir obtenu le modèle pré-entraîné OceanGPT, les chercheurs ont utilisé la méthode LoRA pour affiner le modèle. Afin d'évaluer les capacités du grand modèle de langage OceanGPT dans les tâches océanographiques, les chercheurs ont sélectionné trois modèles : LLaMA-2 (Llama-2-7b-chat-hf), Vicuna-1.5 et ChatGLM2-6B pour comparaison avec OceanGPT.
Avant de faire la comparaison, les chercheurs ont conçu un test de référence OCEANBENCH. Comme le montre la figure ci-dessous, le benchmark comprend 15 tâches liées à l’océan telles que l’analyse, le jugement, etc.

Comme le montre la figure ci-dessous, les chercheurs ont comparé les performances d’OceanGPT avec trois modèles de base au niveau des tâches sur 15 sous-tâches dans le domaine océanique.Les résultats montrent qu’OceanGPT est plus performant que les autres modèles, tant en évaluation automatique qu’en évaluation humaine.

Comme le montre la figure ci-dessus, les chercheurs ont montré les résultats de l'évaluation du modèle OceanGPT dans la mission scientifique océanique OCEANBENCH et ont constaté queOceanGPT surpasse les autres modèles de langage de base dans la grande majorité des tâches.

De la pollution nucléaire aux robots sous-marins, la double victoire d'OceanGPT dans le domaine marin
Afin de prouver le potentiel d’application d’OceanGPT dans le domaine océanique, les chercheurs ont testé OceanGPT du point de vue des sciences océaniques et de l’ingénierie océanique.
Un nouvel outil pour la recherche sur les radionucléides : OceanGPT offre une meilleure profondeur de connaissances professionnelles
Pour les sciences océaniques, les chercheurs se sont concentrés sur la contamination nucléaire de l’environnement marin et ont comparé les performances d’OceanGPT et de Vicuna-7b-1.5 dans cette mission.

Comme le montre la figure ci-dessus, OceanGPT a montré un niveau de connaissances plus élevé lors de la description du contenu de la recherche sur les radionucléides. Le texte est non seulement clairement structuré et bien organisé, mais couvre également tous les aspects de la recherche sur les radionucléides, tels que la conception expérimentale, l’analyse des données, l’évaluation des risques et les directives de manipulation.
En revanche, bien que Vicuna-7b-1.5 soit clairement exprimé et logique, il lui manque un contenu plus profond et plus spécifique lié aux radionucléides.
En résumé, OceanGPT présente des avantages en termes d’expertise, de qualité et de richesse des connaissances.
Ingénierie marine intelligente : OceanGPT permet un contrôle précis des robots sous-marins
L’ingénierie marine est essentielle à la durabilité et à la sécurité des opérations offshore. Pour faciliter l’interaction d’OceanGPT avec le monde extérieur, les chercheurs ont synthétisé les données du code du robot et intégré ces instructions du code machine dans les données de formation pour évaluer les capacités du modèle via le code ou les commandes de la console.

Comme le montre la figure ci-dessus, OceanGPT peut donner des instructions aux robots sous-marins via du code ou des commandes de console afin que les robots sous-marins puissent effectuer des tâches complexes (sur la base d'instructions humaines), ce qui montre qu'OceanGPT a acquis des capacités préliminaires d'intelligence incarnée, ouvrant la voie à des modèles océaniques avancés pour effectuer des tâches complexes de contrôle et de planification de robots.
OceanGPT « évolue » à nouveau et la science marine inaugure l'ère de l'intelligence
Dirigée par les professeurs Zhang Ningyu et Chen Huajun de l'Université du Zhejiang, l'équipe de recherche, qui comprend Bi Zhen, Xue Yida, Ou Yixin, Ji Daxiong, Zheng Guozhou et d'autres, a construit avec succès le premier grand modèle de langage OceanGPT dans le domaine océanique, marquant une étape clé dans le processus intelligent du domaine océanique.OceanGPT est devenu une étape importante dans le domaine océanique.
Cependant, le développement d’OceanGPT ne s’est pas arrêté là. Avec l’approfondissement de la recherche et l’amélioration de la technologie,OceanGPT a inauguré une nouvelle série d’optimisations et de mises à niveau.
Selon un rapport récent du laboratoire ZJUKG du moteur de connaissances de l'université du Zhejiang, le premier auteur de l'article, Bi Zhen, a annoncé une série d'avancées majeures dans OceanGPT :
* Tout d’abord, lancer officiellement deux nouvelles versions : OceanGPT-14B et OceanGPT-2B ;
* Deuxièmement, OceanGPT basé sur la base chinoise Qwen2 est ajouté pour obtenir une interaction efficace entre le chinois et l'anglais ;
* Dans le même temps, l'équipe a également ouvert le code source d'OceanInstruct, un ensemble de données d'instructions de modèles océaniques à l'échelle 20 000, afin de fournir un soutien précieux aux chercheurs en sciences marines ;
Adresse de téléchargement du jeu de données OceanInstruct :
* Enfin, la version multimodale d'OceanGPT-V est publiée, qui non seulement prend en charge le traitement des informations océaniques multimodales telles que les données sonar et les images scientifiques, mais fournit également une démonstration en ligne d'OceanGPT-V, ouvrant de nouvelles perspectives et possibilités pour l'exploration des sciences océaniques. Il est rapporté que le modèle sera bientôt open source.
Afin d'analyser les changements dans les capacités du modèle après la mise à jour,Prenant l'exemple d'OceanGPT-14B, les chercheurs ont posé une question chinoise : « Veuillez générer un plan de construction pour les câbles sous-marins dans la mer de Chine orientale », comme le montre la figure ci-dessous :

Les résultats montrent que le contenu généré par OceanGPT est plus riche, couvre plus de niveaux et a une plus forte capacité à comprendre et à générer des connaissances scientifiques marines.
Dans le même temps, pour vérifier les capacités de génération en anglais d'OceanGPT, les chercheurs ont fourni l'entrée en anglais « Veuillez décrire la topographie du fond marin et les caractéristiques géomorphologiques de la mer de Chine orientale », comme le montre la figure ci-dessous :

Les résultats montrent que les descriptions générées par OceanGPT sont relativement bonnes en termes de détail, d’exhaustivité, de professionnalisme et de division régionale, et peuvent fournir des informations plus précises et plus approfondies sur la topographie et la géomorphologie des fonds marins.
En outre, Bi Zhen a également donné le plan de développement d'OceanGPT, comme le montre la figure ci-dessous :

Il est prévu qu'entre août et décembre 2024,Une version bilingue et multimodale d’OceanGPT-V+ sera lancée.Sur la base du corpus à grande échelle, ils continueront à former OceanGPT en utilisant des modèles plus grands (tels que 30B et 70B) et à maintenir OceanGPT en ajoutant de nouvelles données et de nouvelles tâches pour explorer des mondes plus inconnus de la science océanique.
Nous attendons avec impatience qu’OceanGPT apporte plus de surprises et de percées, et ouvre un nouveau chapitre dans la recherche en sciences marines !
Références :
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ
Appel à l'action
HyperAI (hyper.ai) est le plus grand moteur de recherche de Chine dans le domaine de la science des données. Il se concentre depuis longtemps sur les derniers résultats de recherche en matière d’IA pour la science et a interprété plus de 100 articles universitaires dans des revues de premier plan.
Les groupes et équipes de recherche qui mènent des recherches et des explorations autour de l'IA pour la science sont invités à nous contacter pour partager leurs derniers résultats de recherche, contribuer à des articles d'interprétation approfondis et participer à la chronique de diffusion en direct Meet AI4S. D’autres moyens de promouvoir l’IA4S nous attendent pour être explorés ensemble !