OceanInstruct海洋大型モデル命令データセット

OceanInstruct は、海洋科学の分野向けに特別に設計された大規模言語モデル命令データ セットで、20,000 の命令が含まれており、海洋分野の大規模言語モデルのトレーニング データを提供するように設計されています。これらの指示は海洋科学の幅広い知識をカバーしており、モデルが海洋科学の質問と回答、コンテンツ生成、および水中で具現化されたインテリジェンス機能における専門的な機能を備えていることを保証します。このデータ セットは、海洋科学の質問応答やコンテンツ生成で優れたパフォーマンスを発揮する OceanGPT モデルのトレーニングに使用されます。 OceanGPT モデルは、複数のタスクにおいてベースライン言語モデルよりも優れたパフォーマンスを示し、専門知識を必要とする海洋タスクの処理における利点を示しています。
このデータセットは 2024 年に浙江大学によってオープンソース化され、関連する論文の結果は「OceanGPT: 海洋科学タスクのための大規模言語モデル”。
スーパーニューロレポートのアドレスは「ACL2024代表に選出!浙江大学が初の海洋言語モデル「OceanGPT」を発表、水中身体化知能を実現”。
さらに、OceanBench とともに提案されているのは、 OceanBench 海洋ベンチマーク評価データセット、特に海洋ミッションを対象としたベンチマーク評価データセット。このデータセットには、質問応答タスクや説明タスクなど、合計 15 の海洋関連タスクが含まれており、海洋学の分野における大規模言語モデル (LLM) の機能を包括的に評価するように設計されています。 OceanBench のサンプルはシード データ セットから自動的に生成され、データの専門性と正確性を確保するために専門家によって手動で検証されます。