مجموعة بيانات تعليمات نموذج المحيط الكبير OceanInstruct
التاريخ
الحجم
رابط النشر
الفئات

OceanInstruct عبارة عن مجموعة بيانات تعليمية لنموذج اللغة واسع النطاق تم تصميمها خصيصًا لمجال علوم المحيطات. ويحتوي على 20 ألف تعليمة، ويهدف إلى توفير بيانات تدريبية لنماذج لغوية واسعة النطاق في مجال المحيطات. تغطي هذه التعليمات مجموعة واسعة من المعرفة في مجال العلوم البحرية، مما يضمن أن النموذج لديه قدرات احترافية في الإجابة على أسئلة العلوم البحرية، وتوليد المحتوى، وقدرات الذكاء المتجسد تحت الماء. تم استخدام مجموعة البيانات لتدريب نموذج OceanGPT، الذي يعمل بشكل جيد في الإجابة على أسئلة العلوم البحرية، وتوليد المحتوى، وغيرها من الجوانب. يتفوق نموذج OceanGPT على نماذج اللغة الأساسية في مهام متعددة، مما يدل على قوته في التعامل مع مهام المحيط التي تتطلب معرفة متخصصة.
تم إتاحة هذه المجموعة من البيانات مفتوحة المصدر من قبل جامعة تشجيانغ في عام 2024، ونتائج الورقة البحثية ذات الصلة هي "OceanGPT: نموذج لغوي كبير لمهام علوم المحيطات".
عنوان تقرير السوبر نيورو هوتم اختياره لـ ACL 2024! جامعة تشجيانغ تطلق أول نموذج للغة المحيط OceanGPT، مما يجعل الذكاء المتجسد تحت الماء حقيقة واقعة".
بالإضافة إلى ذلك، اقترح OceanBench أيضًا مجموعة بيانات تقييم معايير علم المحيطات من OceanBench، وهي مجموعة بيانات تقييمية معيارية خاصة بمهام علم المحيطات. تتضمن مجموعة البيانات هذه إجمالي 15 مهمة مرتبطة بالمحيط، مثل مهام الإجابة على الأسئلة والوصف، وتهدف إلى تقييم قدرات نماذج اللغة الكبيرة (LLMs) بشكل شامل في مجال علم المحيطات. يتم إنشاء العينات في OceanBench تلقائيًا من مجموعات بيانات البذور ويتم التحقق منها يدويًا بواسطة خبراء لضمان الاحترافية ودقة البيانات.