OceanBench 是由浙江大学张宁豫、陈华钧团队于 2024 年设计的一个专门针对海洋学任务的基准测试评估数据集。这个数据集总共包括 15 种与海洋相关的任务,例如问答和描述任务,旨在全面评估大型语言模型 (LLM) 在海洋学领域的能力。 OceanBench 中的样本是通过自动化的方式从种子数据集生成,并经过专家的人工验证,以确保数据的专业性和准确性。
OceanBench 的创建是为了推动海洋学领域大型语言模型的发展,提供标准化的测试平台,帮助研究人员更好地理解和提升模型在海洋科学任务中的性能。通过这个基准测试,研究人员可以评估模型在海洋科学不同子任务上的能力,包括但不限于海洋物理、海洋化学、海洋生物学、地质学、水文学等领域的问题回答和描述生成任务。
此外,与 OceanBench 一同提出的还有 OceanInstruct 海洋大模型指令数据集,这是一个专为海洋科学领域设计的大型语言模型指令数据集,包含 20,000 条指令,旨在为海洋领域的大型语言模型提供训练数据。这些指令覆盖了广泛的海洋科学知识,确保模型在海洋科学问答、内容生成和水下具身智能能力等方面具备专业能力。该数据集被用于训练 OceanGPT 模型,该模型在海洋科学问答、内容生成等方面表现出色。
做种 1
下载中 0
已完成 33
总下载 59