HyperAI

Ausgewählt Für ACL 2024! Die Zhejiang-Universität Führt Das Erste Ozeansprachenmodell OceanGPT Ein Und Lässt Damit Verkörperte Intelligenz Unter Wasser Wirklichkeit Werden

特色图像

KI-Tools, darunter große Sprachmodelle (LLMs), verändern nach und nach das wissenschaftliche Paradigma.Von Nature als eines der wissenschaftlichen Ereignisse aufgeführt, denen man im Jahr 2024 Beachtung schenken sollte.Als zentrales Werkzeug im Bereich des Text Data MiningGroße Sprachmodelle können wichtige wissenschaftliche Informationen, Muster und Trends aus riesigen Mengen von Textdaten extrahieren.Dadurch wird das Verständnis verschiedener Disziplinen vertieft und es werden umfassende Unterstützung und Erkenntnisse für wissenschaftliche Forschungsprozesse, Entscheidungsfindungen und die Lösung komplexer Probleme bereitgestellt.

Zum Beispiel,Biomedizin,Microsoft hat das Sprachmodell BioGPT anhand von Millionen relevanter wissenschaftlicher Arbeiten in der PubMed-Datenbank trainiert. Das Modell ist gut darin, komplexe Konzepte wie Fachbegriffe, Gennamen und Proteinsequenzen zu verstehen. Im Vergleich zu nicht-professionellen Modellen,BioGPT kann schnell und präzise Antworten auf biomedizinische Fragen generieren.Erledigen Sie Aufgaben wie Text Mining, Verfassen von Laborberichten, Moleküldesign und Verfassen von Literaturübersichten.

Ebenfalls,Im Bereich der MeereswissenschaftenDie Verwendung großer Sprachmodelle zur Analyse riesiger Mengen meereswissenschaftlicher Textdaten und zum Verständnis von Theorien und Methoden im Zusammenhang mit den Eigenschaften der Ozeane, sich verändernden Mustern sowie der Entwicklung und Nutzung von Ressourcen ist von entscheidender Bedeutung für die globale Klimaregulierung, die Gestaltung von Wettermustern, den Erhalt der Artenvielfalt und die künftige wirtschaftliche Entwicklung der Menschheit.

Allerdings sind mehrdimensionale und mehrskalige Ozeandaten von enormem Umfang und großer Typenvielfalt, was es für herkömmliche Datenverarbeitungsmethoden schwierig macht, sie zu verarbeiten. Gleichzeitig umfasst die Meereswissenschaft mehrere Felder und Disziplinen, von denen jedes seine eigenen einzigartigen Datenattribute und -muster aufweist, was für LLM-Absolventen einen größeren Vorrat an Fachwissen erfordert.Allerdings kann der derzeitige Mainstream-LLM die spezifischen Bedürfnisse von Ozeanographen noch immer nicht vollständig erfüllen.

In diesem ZusammenhangDas von Zhang Ningyu und Chen Huajun von der School of Computer Science and Technology der Zhejiang-Universität geleitete Team schlug das erste große Sprachmodell im Ozeanbereich vor: OceanGPT.Das Modell eignet sich hervorragend für eine Vielzahl von Aufgaben der Meereswissenschaften und kann Fragen auf der Grundlage von Anweisungen von Ozeanographen beantworten. Durch die Auswertung des Ozeanographie-Benchmarks OCEANBENCH konnte OceanGPT nicht nur umfassendes Fachwissen in meereswissenschaftlichen Aufgabenstellungen unter Beweis stellen, sondern auch erste Fähigkeiten im Bereich der verkörperten Intelligenz im Meeresingenieurwesen erwerben.
OceanGPT-Projektadresse:

http://oceangpt.zjukg.cn/

Um die Beschaffung von Ozeandaten zu erleichtern,Die Forscher schlugen außerdem ein Framework zur Erstellung von Anweisungen für die Meereswissenschaften (DoInstruct) vor, das auf der Zusammenarbeit mehrerer Agenten basiert.Dabei gilt jeder Agent als Experte auf einem bestimmten Gebiet (wie etwa Wissenschaft und Forschung, Ressourcen und Entwicklung, Ökologie und Umwelt usw.) und ist für die Generierung von Daten im entsprechenden Gebiet verantwortlich.

Die Forschung trägt den Titel „OceanGPT: Ein großes Sprachmodell für Aufgaben der Ozeanwissenschaften“.Es wurde kürzlich als Hauptkonferenzbeitrag der ACL 2024 (CCF-A-Konferenz), einer führenden Konferenz zur Verarbeitung natürlicher Sprache, angenommen.

Forschungshighlights:
* Im Vergleich zu vorhandenen Open-Source-Großsprachenmodellen kann OceanGPT, ein Großsprachenmodell für den Ozeanbereich, professionellere Ozeanaufgaben bewältigen.

* Das Framework zur Generierung von Anweisungen für die Meereswissenschaften, DoInstruct, ist sehr flexibel und kann optimiert und auf verschiedene wissenschaftliche Bereiche (wie die Astronomie) angewendet werden.

Papieradresse:

https://arxiv.org/abs/2310.02031

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Datensatz: Auf hohe Qualität ausgerichtet, aus 67.633 meereswissenschaftlichen Artikeln

Als Ausgangskorpus trugen die Forscher in den vergangenen Jahren 67.633 Artikel aus dem Bereich der Meereswissenschaften zusammen.Wir haben auch einige historisch bedeutsame Dokumente ausgewählt, um LLM dabei zu helfen, die Geschichte der Entwicklung des Ozeanfeldes zu verstehen. Um Vielfalt zu gewährleisten, stammen die Artikel aus unterschiedlichen Quellen und decken eine Vielzahl von Forschungsperspektiven und -methoden ab.

Um die Qualität und Konsistenz der Daten zu gewährleisten,Die Forscher verwendeten reguläre Ausdrücke, um Grafiken, Tabellen, Kopf- und Fußzeilen, Seitenzahlen, URLs und Referenzen herauszufiltern. Entfernen Sie zusätzliche Leerzeichen, Zeilenumbrüche und andere Nicht-Textzeichen. und ersetzen oder löschen Sie Sonderzeichen, Emoticons und unleserliche Zeichen. Die verarbeiteten Dokumente decken verschiedene Bereiche der Meereswissenschaften ab, wie etwa Ozeanphysik, Meereschemie, Meeresbiologie, Geologie, Hydrologie usw.

Dann,Die Forscher verwendeten einen Hash-Algorithmus, um die Daten zu deduplizieren.Dies trägt dazu bei, das Risiko einer Überanpassung während des Vortrainings des Modells zu verringern und seine Generalisierungsfähigkeit zu verbessern.

Da das Korpus der Meereswissenschaften mehrere Felder und Themen umfasst, weist jedes Thema seine eigenen einzigartigen Datenmerkmale und -muster auf. Um diese Daten effektiv zu simulieren und zu erhalten,Die Forscher schlugen ein Framework zur Domänenbefehlsgenerierung DoInstruct vor.
*Ozeanthemen: Basierend auf der Expertise von Ozeanographen werden die meereswissenschaftlichen Daten manuell in fünf relativ unabhängige Ozeanthemen unterteilt, nämlich Wissenschaft und Forschung, Ressourcen und Entwicklung, Ökologie und Umwelt, Technologie und Ingenieurwesen, Leben, Kultur und andere.

Hochwertig/professionell/vielfältig, DoInstruct kann Marine-Anweisungsdaten generieren

Das Framework zur Generierung von Domänenanweisungen, DoInstruct, basiert auf der Zusammenarbeit mehrerer Agenten und kann die Generierung von Ozeandaten effektiv realisieren.

DoInstruct-Framework

Wie in der Abbildung oben gezeigt, im DoInstruct-FrameworkDie Forscher entwarfen drei Agentenrollen:Sich entwickelnder Agent als Generator, fein abgestimmter Agent als Literaturextraktor und -inspektor. Jeder Agent gilt als Experte auf einem bestimmten Gebiet (Thema) und ist für die Generierung der entsprechenden Daten verantwortlich.

Der sich entwickelnde Agent als Generator

Um den Ausgangsdatensatz zu erstellen, beauftragten die Forscher Dutzende von Kommentatoren mit umfassendem Hintergrundwissen in Meereswissenschaften. Jeder von ihnen war für mehrere Themen zuständig und schrieb manuell einige repräsentative Beispiele für jedes Meeresthema.

Anschließend verwendeten die Forscher große Sprachmodelle, um die vorhandenen Daten zu imitieren und eine große Anzahl ähnlicher Beispiele zu generieren, die alle manuell von Kommentatoren überprüft wurden. Der endgültige Datensatz mit Seed-Anweisungen umfasst 5 Hauptkategorien, mehr als 500 Unterkategorien und mehr als 10.000 Datenbeispiele.

Links: Evolutionärer Datensynthese-Agent

Nachdem die Forscher den Datensatz mit den Seed-Anweisungen erhalten hatten, wählten sie Beispiele daraus aus und riefen Agent (gpt-3.5-turbo) auf, um die ausgewählten Beispiele weiterzuentwickeln.

Wie in der Abbildung links gezeigt, können Forscher insbesondere durch die Ergänzung und Erweiterung des Hintergrundwissens zu den Saatgutproben und durch die Durchführung verfeinerter Analysen, Erweiterungen und Verbesserungen der in den Saatgutdaten enthaltenen Wissenspunkte in mehreren Iterationsrunden den vorhandenen Saatgutdatensatz schnell erweitern und die Breite und Tiefe der Informationen erhöhen.

Feinabgestimmter Agent als Literaturextraktor

Fein abgestimmter Literatur-Leseagent

Die Forscher stellten ein von Experten annotiertes Korpus zusammen und nutzten den BM25-Algorithmus, um qualitativ hochwertige Sätze aus dem größeren Ocean Corpus abzurufen, wobei sie beide als qualitativ hochwertige Kandidatenbeispiele betrachteten. Gleichzeitig verwendeten die Forscher den Seed-Anweisungsdatensatz, um gpt-3.5-turbo zu optimieren, und betrachteten den optimierten Agenten als Dokumentextraktor, der qualitativ hochwertigen Text aus dem riesigen Ozeankorpus extrahieren kann.

Audit-Agent zur Sicherstellung der Datenqualität: Agent als Prüfer mit Regeleinschränkungen

Audit Agent zur Sicherstellung der Datenqualität

Für die große Zahl generierter Anweisungen verwendeten die Forscher Grammatik, Semantik, grundlegende Definitionen des Ozeanfeldes usw. als Regelbeschränkungen, erstellten Agenten durch Eingabeaufforderungen und filterten die Daten, um sicherzustellen, dass die generierten Ozean-Anweisungsdaten von höherer Qualität waren.

Um die Datenqualität weiter zu gewährleisten, wählten die Forscher zufällig 10%-Beispiele aus dem generierten Anweisungsdatensatz aus und baten geschulte, freiwillige Fachexperten, zu überprüfen, ob diese Beispiele potenzielle Fehler enthielten. Die endgültigen Daten hatten einen IAA-Score (Inter-Annotator Agreement) von 0,82, was dem Forschungszweck entsprach.

Wie in der Abbildung unten gezeigt,Das DoInstruct-Framework kann mehrere Agenten verwenden, um schnell meereswissenschaftliche Datensätze zu erstellen, und kann auf über 150.000 Anweisungen (Datenentwicklung, Datenextraktion) erweitert werden. Darüber hinaus sind auch die Professionalität und Richtigkeit der Daten gewährleistet.

Statistiken des endgültigen Anweisungsdatensatzes

Wie in der folgenden Abbildung dargestellt, haben die Forscher den Datengenerierungseffekt von DoInstruct aus den Perspektiven Wissensqualität, Fachwissen und Vielfalt gemessen.

Leistungsanalyse verschiedener Agenten

Es ist ersichtlich, dass der sich entwickelnde Generator-Agent den Reichtum der Ozeandaten effektiv steigern kann. Der Extraktionsagent kann die Professionalität des Inhalts verbessern und der Prüfagent kann die Qualität der generierten Daten verbessern. Zusammenfassend lässt sich sagen, dass die Zusammenarbeit mehrerer Agenten für die Kommandoerstellung auf See effektiv ist.

Basierend auf LLaMA-2 ist OceanGPT bei Meeresaufgaben leistungsfähiger

Nachdem die Forscher die Anweisungsdaten erhalten hatten, trainierten sie OceanGPT 7 Tage lang auf der Grundlage von LLaMA-2 mit 6 Nvidia A800-GPUs vor.

Der Gesamtrahmen des OceanGPT-Modells

Nachdem die Forscher das vortrainierte Modell OceanGPT erhalten hatten, verwendeten sie die LoRA-Methode, um das Modell zu optimieren. Um die Fähigkeiten des großen Sprachmodells OceanGPT bei ozeanografischen Aufgaben zu bewerten, wählten die Forscher drei Modelle aus: LLaMA-2 (Llama-2-7b-chat-hf), Vicuna-1.5 und ChatGLM2-6B zum Vergleich mit OceanGPT.

Vor dem Vergleich entwickelten die Forscher einen Benchmarktest namens OCEANBENCH. Wie in der folgenden Abbildung dargestellt, umfasst der Benchmark 15 Aufgaben im Zusammenhang mit dem Ozean, wie z. B. Analyse, Beurteilung usw.

OCEANBENCH Detaillierte Statistiken

Wie in der folgenden Abbildung dargestellt, verglichen die Forscher die Leistung von OceanGPT mit drei Basismodellen auf Aufgabenebene bei 15 Unteraufgaben im Ozeanbereich.Die Ergebnisse zeigen, dass OceanGPT sowohl bei der automatischen als auch bei der menschlichen Auswertung bessere Ergebnisse erzielt als andere Modelle.

Ergebnisse auf der Ebene der Ozeanaufgaben. Links: Automatische Auswertung durch GPT-4, Rechts: Auswertung durch Menschen

Wie in der Abbildung oben gezeigt, zeigen Forscher die Auswertungsergebnisse des OceanGPT-Modells in der OCEANBENCH-Meeresforschungsmission und stellten fest, dassOceanGPT übertrifft bei den meisten Aufgaben andere Basissprachmodelle.

Evaluierungsergebnisse von OceanGPT in der Ozeanforschungsmission OCEANBENCH

Von der nuklearen Verschmutzung bis hin zu Unterwasserrobotern: OceanGPTs doppelter Sieg im Meeresbereich

Um das Anwendungspotenzial von OceanGPT im Meeresbereich zu beweisen, testeten Forscher OceanGPT aus der Perspektive der Meereswissenschaft und des Meeresingenieurwesens.

Ein neues Werkzeug für die Radionuklidforschung: OceanGPT verfügt über eine bessere fachliche Wissenstiefe

Im Bereich der Meereswissenschaften konzentrierten sich die Forscher auf die nukleare Kontamination der Meeresumwelt und verglichen die Leistung von OceanGPT und Vicuna-7b-1.5 bei dieser Mission.

Fallanalyse einer Meeresforschungsmission: So führen Sie Forschungen zur Oberflächen- und Grenzflächenchemie sowie zu den toxikologischen Auswirkungen wichtiger Radionuklide durch

Wie in der Abbildung oben gezeigt, zeigte OceanGPT ein höheres Wissensniveau bei der Beschreibung des Inhalts der Radionuklidforschung. Der Text ist nicht nur klar strukturiert und gut organisiert, sondern deckt auch alle Aspekte der Radionuklidforschung ab, wie etwa experimentelles Design, Datenanalyse, Risikobewertung und Handhabungsrichtlinien.

Im Gegensatz dazu ist Vicuna-7b-1.5 zwar klar formuliert und logisch, es fehlt jedoch der tiefere, spezifischere Inhalt im Zusammenhang mit Radionukliden.

Zusammenfassend lässt sich sagen, dass OceanGPT Vorteile hinsichtlich Wissenskompetenz, Qualität und Wissensreichtum bietet.

Intelligente Meerestechnik: OceanGPT ermöglicht präzise Steuerung von Unterwasserrobotern

Die Schiffstechnik ist für die Nachhaltigkeit und Sicherheit von Offshore-Aktivitäten von entscheidender Bedeutung. Um die Interaktion von OceanGPT mit der Außenwelt zu erleichtern, synthetisierten die Forscher Robotercodedaten und integrierten diese Maschinencodeanweisungen in die Trainingsdaten, um die Fähigkeiten des Modells durch Code- oder Konsolenbefehle zu bewerten.

OceanGPT steuert Unterwasserroboter

Wie in der Abbildung oben gezeigt, kann OceanGPT über Code oder Konsolenbefehle Anweisungen an Unterwasserroboter erteilen, sodass Unterwasserroboter komplexe Aufgaben (basierend auf menschlichen Anweisungen) ausführen können. Dies zeigt, dass OceanGPT vorläufige verkörperte Intelligenzfähigkeiten erworben hat und den Weg für fortschrittliche Ozeanmodelle ebnet, um komplexe Robotersteuerungs- und Planungsaufgaben auszuführen.

OceanGPT entwickelt sich weiter und die Meeresforschung läutet das Zeitalter der Intelligenz ein

Unter der Leitung der Professoren Zhang Ningyu und Chen Huajun von der Zhejiang-Universität hat das Forschungsteam, zu dem unter anderem Bi Zhen, Xue Yida, Ou Yixin, Ji Daxiong und Zheng Guozhou gehören, erfolgreich das erste große Sprachmodell OceanGPT im Ozeanbereich erstellt und damit einen wichtigen Schritt im intelligenten Prozess des Ozeanbereichs markiert.OceanGPT ist zu einem wichtigen Meilenstein im Bereich der Ozeane geworden.

Die Entwicklung von OceanGPT war hier jedoch nicht beendet. Mit der Vertiefung der Forschung und der Verbesserung der Technologie,OceanGPT hat eine neue Runde der Optimierung und Aktualisierung eingeläutet.

Laut einem aktuellen Bericht des Knowledge Engine Laboratory ZJUKG der Zhejiang University kündigte der Erstautor des Papiers, Bi Zhen, eine Reihe wichtiger Fortschritte bei OceanGPT an:

* Zunächst werden zwei neue Versionen offiziell eingeführt: OceanGPT-14B und OceanGPT-2B;

* Zweitens wird OceanGPT basierend auf der chinesischen Qwen2-Basis hinzugefügt, um eine effiziente Interaktion zwischen Chinesisch und Englisch zu erreichen;

* Gleichzeitig hat das Team OceanInstruct, einen Anweisungsdatensatz für Ozeanmodelle im Maßstab 20.000, als Open Source freigegeben, um Meereswissenschaftlern wertvolle Ressourcenunterstützung zu bieten.

Downloadadresse für den OceanInstruct-Datensatz:

https://go.hyper.ai/3QuLq

* Schließlich wird die multimodale Version von OceanGPT-V veröffentlicht, die nicht nur die Verarbeitung multimodaler Ozeaninformationen wie Sonardaten und wissenschaftliche Bilder unterstützt, sondern auch eine Online-Demonstration von OceanGPT-V bietet und so neue Perspektiven und Möglichkeiten für die Erforschung der Ozeane eröffnet. Berichten zufolge soll das Modell bald Open Source sein.

Um die Änderungen der Modellfunktionen nach der Aktualisierung zu analysieren,Am Beispiel von OceanGPT-14B stellten die Forscher den Chinesen die Frage: „Bitte erstellen Sie einen Bauplan für Unterseekabel im Ostchinesischen Meer“, wie in der folgenden Abbildung dargestellt:

Die Ergebnisse zeigen, dass die von OceanGPT generierten Inhalte umfangreicher sind, mehr Ebenen abdecken und eine stärkere Fähigkeit besitzen, meereswissenschaftliches Wissen zu verstehen und zu generieren.

Um gleichzeitig die Fähigkeit von OceanGPT zur Generierung englischer Texte zu überprüfen, gaben die Forscher die englische Eingabe „Bitte beschreiben Sie die Topographie und geomorphologischen Merkmale des Meeresbodens im Ostchinesischen Meer“, wie in der folgenden Abbildung dargestellt:

Die Ergebnisse zeigen, dass die von OceanGPT generierten Beschreibungen hinsichtlich Detailliertheit, Vollständigkeit, Professionalität und regionaler Aufteilung relativ gut sind und genauere und tiefergehende Informationen zur Topographie und Geomorphologie des Meeresbodens liefern können.

Darüber hinaus gab Bi Zhen auch den Entwicklungsplan von OceanGPT bekannt, wie in der folgenden Abbildung dargestellt:

OceanGPT-Planung

Es wird erwartet, dass zwischen August und Dezember 2024Eine zweisprachige und multimodale Version von OceanGPT-V+ wird eingeführt.Auf der Grundlage des umfangreichen Korpus werden sie OceanGPT weiterhin mit größeren Modellen (wie 30B und 70B) trainieren und OceanGPT durch Hinzufügen neuer Daten und neuer Aufgaben pflegen, um noch mehr unbekannte Welten der Meereswissenschaften zu erkunden.

Wir freuen uns darauf, dass OceanGPT weitere Überraschungen und Durchbrüche bringt und ein neues Kapitel in der Meeresforschung aufschlägt!

Quellen:
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ

Aufruf zum Handeln

HyperAI (hyper.ai) ist Chinas größte Suchmaschine im Bereich Datenwissenschaft. Es konzentriert sich seit langem auf die neuesten Forschungsergebnisse der KI für die Wissenschaft und hat mehr als 100 wissenschaftliche Arbeiten in Top-Zeitschriften interpretiert.

Forschungsgruppen und Teams, die Forschung und Erkundung im Bereich KI für die Wissenschaft betreiben, können sich gerne an uns wenden, um ihre neuesten Forschungsergebnisse mitzuteilen, ausführliche Interpretationsartikel beizusteuern und an der Live-Übertragungskolumne „Meet AI4S“ teilzunehmen. Weitere Möglichkeiten zur Förderung von AI4S warten darauf, von uns gemeinsam erkundet zu werden!