OceanInstruct Ocean 대형 모델 지침 데이터 세트

OceanInstruct는 해양 과학 분야를 위해 특별히 설계된 대규모 언어 모델 지침 데이터 세트입니다. 여기에는 20,000개의 명령어가 포함되어 있으며, 해양 분야의 대규모 언어 모델에 대한 훈련 데이터를 제공하는 것을 목표로 합니다. 이 지침은 광범위한 해양 과학 지식을 포괄하여 해당 모델이 해양 과학 질문에 대한 답변, 콘텐츠 생성, 수중 구현 정보 기능 면에서 전문적인 역량을 갖추고 있음을 보장합니다. 이 데이터 세트는 해양 과학에 대한 질의응답, 콘텐츠 생성 및 기타 측면에서 좋은 성과를 보이는 OceanGPT 모델을 훈련하는 데 사용되었습니다. OceanGPT 모델은 여러 작업에서 기준 언어 모델보다 우수한 성능을 보이며, 전문 지식이 필요한 해양 작업을 처리하는 데 강점이 있음을 보여줍니다.
이 데이터 세트는 2024년에 저장대학교에서 오픈 소스로 공개되었으며 관련 논문 결과는 다음과 같습니다.OceanGPT: 해양 과학 작업을 위한 대규모 언어 모델".
슈퍼뉴로 리포트의 주소는 다음과 같습니다.ACL 2024에 선정되었습니다! 저장대학교, 최초의 해양 언어 모델 OceanGPT 출시로 수중 체현 지능 실현".
또한 OceanBench는 다음과 같은 제안도 했습니다. OceanBench 해양학 벤치마크 평가 데이터 세트이는 해양학 작업을 위한 벤치마크 평가 데이터 세트입니다. 이 데이터 세트에는 질의응답, 설명 과제 등 총 15개의 해양 관련 과제가 포함되어 있으며, 해양학 분야에서 대규모 언어 모델(LLM)의 역량을 종합적으로 평가하는 것을 목표로 합니다. OceanBench의 샘플은 시드 데이터 세트에서 자동 생성되며, 데이터의 전문성과 정확성을 보장하기 위해 전문가가 수동으로 검증합니다.