OceanBench-Datensatz Zur Bewertung Des Ozeanographie-Benchmarks
Datum
Größe
Veröffentlichungs-URL
Kategorien

OceanBench ist ein Benchmark-Evaluierungsdatensatz speziell für ozeanografische Aufgaben, der 2024 vom Team von Zhang Ningyu und Chen Huajun von der Zhejiang-Universität entwickelt wurde. Dieser Datensatz umfasst insgesamt 15 Aufgaben zum Thema Ozean, wie z. B. Fragen- und Antwort- sowie Beschreibungsaufgaben, und zielt darauf ab, die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich der Ozeanographie umfassend zu bewerten. Die Proben in OceanBench werden automatisch aus Seed-Datensätzen generiert und manuell von Experten überprüft, um die Professionalität und Genauigkeit der Daten sicherzustellen.
OceanBench wurde entwickelt, um die Entwicklung groß angelegter Sprachmodelle in der Ozeanographie voranzutreiben. Es bietet eine standardisierte Testplattform, die Forschern hilft, die Leistung von Modellen bei Aufgaben der Meereswissenschaften besser zu verstehen und zu verbessern. Mithilfe dieses Benchmarks können Forscher die Leistungsfähigkeit von Modellen in verschiedenen Teilaufgaben der Meereswissenschaften bewerten, darunter unter anderem Fragen und Antworten sowie die Generierung von Beschreibungen in den Bereichen Meeresphysik, Meereschemie, Meeresbiologie, Geologie, Hydrologie usw.
Darüber hinaus schlug OceanBench vor, OceanInstruct Ocean Großes Modell Anweisungsdatensatz, ein großer Datensatz mit Sprachmodellanweisungen, der speziell für den Bereich der Meereswissenschaften entwickelt wurde. Es enthält 20.000 Anweisungen und zielt darauf ab, Trainingsdaten für große Sprachmodelle im Meeresbereich bereitzustellen. Diese Anweisungen decken ein breites Spektrum an meereswissenschaftlichem Wissen ab und stellen sicher, dass das Modell über professionelle Fähigkeiten zur Beantwortung meereswissenschaftlicher Fragen, zur Inhaltserstellung und zur Nutzung verkörperter Unterwasser-Intelligenz verfügt. Der Datensatz wurde zum Trainieren des OceanGPT-Modells verwendet, das bei der Beantwortung meereswissenschaftlicher Fragen, der Inhaltsgenerierung und in anderen Bereichen gute Leistungen erbringt.