HyperAI

تم اختياره لـ ACL 2024! جامعة تشجيانغ تطلق أول نموذج للغة المحيط OceanGPT، مما يجعل الذكاء المتجسد تحت الماء حقيقة واقعة

特色图像

إن أدوات الذكاء الاصطناعي، بما في ذلك نماذج اللغة الكبيرة (LLMs)، تعمل على تغيير النموذج العلمي تدريجيًا.تم إدراجه من قبل مجلة Nature كأحد الأحداث العلمية التي تستحق الاهتمام في عام 2024.كأداة أساسية في مجال استخراج البيانات النصية،يمكن لنماذج اللغة الكبيرة استخراج المعلومات العلمية الرئيسية والأنماط والاتجاهات من كميات هائلة من البيانات النصية.وسوف يعمل هذا على تعميق فهم التخصصات المختلفة وتوفير الدعم القوي والرؤى لعمليات البحث العلمي واتخاذ القرار وحل المشكلات المعقدة.

على سبيل المثال،الطب الحيوي،قامت شركة مايكروسوفت بتدريب نموذج اللغة BioGPT على ملايين الأوراق العلمية ذات الصلة في قاعدة بيانات PubMed. يتميز النموذج بقدرته على فهم المفاهيم المعقدة مثل المصطلحات المهنية وأسماء الجينات وتسلسلات البروتين. بالمقارنة مع النماذج غير المهنية،يمكن لـ BioGPT إنشاء إجابات سريعة ودقيقة للأسئلة الطبية الحيوية.إكمال المهام مثل استخراج النصوص، وكتابة تقارير المختبر، والتصميم الجزيئي، وكتابة مراجعة الأدبيات.

على نفس المنوال،في مجال علوم البحار،إن استخدام نماذج لغوية كبيرة لتحليل كميات هائلة من بيانات نصوص العلوم البحرية وفهم النظريات والأساليب المتعلقة بخصائص المحيطات والأنماط المتغيرة وتنمية الموارد والاستفادة منها أمر بالغ الأهمية لتنظيم المناخ العالمي وتشكيل أنماط الطقس والحفاظ على التنوع البيولوجي والتنمية الاقتصادية المستقبلية للبشرية.

ومع ذلك، فإن بيانات المحيطات متعددة الأبعاد ومتعددة المقاييس ضخمة الحجم وغنية بالأنواع، مما يجعل من الصعب على طرق معالجة البيانات التقليدية التعامل معها. في الوقت نفسه، يغطي علم البحار مجالات وتخصصات متعددة، ولكل منها سمات وأنماط بيانات فريدة خاصة بها، مما يتطلب من حاملي شهادة الماجستير في القانون أن يمتلكوا احتياطيًا أكثر ثراءً من المعرفة المهنية.ومع ذلك، فإن برنامج الماجستير في القانون السائد حالياً لا يزال غير قادر على تلبية الاحتياجات المحددة لعلماء المحيطات.

في هذا الصدد،اقترح الفريق بقيادة Zhang Ningyu وChen Huajun من كلية علوم الكمبيوتر والتكنولوجيا في جامعة Zhejiang أول نموذج لغوي كبير في مجال المحيطات، OceanGPT.يتميز النموذج بالتفوق في مجموعة متنوعة من مهام علوم المحيطات ويمكنه الإجابة على الأسئلة بناءً على تعليمات علماء المحيطات. ومن خلال تقييم معيار علم المحيطات OCEANBENCH، لم يثبت OceanGPT خبرة معرفية عالية في مهام علوم البحار فحسب، بل اكتسب أيضًا قدرات استخباراتية أولية مجسدة في الهندسة البحرية.
عنوان مشروع OceanGPT:

http://oceangpt.zjukg.cn/

بالإضافة إلى ذلك، لتخفيف صعوبة الحصول على بيانات المحيط،واقترح الباحثون أيضًا إطار عمل لتوليد تعليمات العلوم البحرية يسمى DoInstruct ويعتمد على التعاون بين العديد من الوكلاء.ومن بينهم، يعتبر كل وكيل خبيرًا في مجال محدد (مثل العلوم والبحث، والموارد والتنمية، والبيئة، وما إلى ذلك) وهو مسؤول عن توليد البيانات في المجال المقابل.

عنوان البحث هو "OceanGPT: نموذج لغوي كبير لمهام علوم المحيطات".وقد تم قبولها مؤخرًا باعتبارها الورقة الرئيسية للمؤتمر الذي نظمه مؤتمر ACL 2024 (مؤتمر CCF-A)، وهو أحد أهم مؤتمرات معالجة اللغة الطبيعية.

أبرز الأبحاث:
* بالمقارنة مع نماذج اللغة الكبيرة مفتوحة المصدر الموجودة، فإن OceanGPT، وهو نموذج لغة كبير لمجال المحيط، يمكنه التعامل مع مهام المحيط الأكثر احترافية.

* إطار عمل DoInstruct لإنشاء تعليمات علوم المحيطات مرن للغاية ويمكن تحسينه وتطبيقه على مجالات علمية مختلفة (مثل علم الفلك)

عنوان الورقة:

https://arxiv.org/abs/2310.02031

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: عالية الجودة، من 67,633 ورقة بحثية في علوم البحار

قام الباحثون بجمع 67,633 مقالة في مجال علوم البحار في السنوات الأخيرة كمجموعة أصلية.لقد قمنا أيضًا باختيار بعض الوثائق ذات الأهمية التاريخية لمساعدة LLM في فهم تاريخ تطور مجال المحيط. ولضمان التنوع، تأتي المقالات من مصادر مختلفة وتغطي مجموعة متنوعة من وجهات النظر والأساليب البحثية.

لضمان جودة البيانات وتناسقها،استخدم الباحثون التعبيرات العادية لتصفية الرسومات والجداول والرؤوس والتذييلات وأرقام الصفحات وعناوين URL والمراجع؛ إزالة المسافات الزائدة، وفواصل الأسطر، والأحرف غير النصية الأخرى؛ واستبدال أو حذف الأحرف الخاصة والرموز التعبيرية والأحرف المشوهة. وتغطي المستندات المعالجة مجالات مختلفة من علوم البحار، مثل فيزياء المحيطات، والكيمياء البحرية، وعلم الأحياء البحرية، والجيولوجيا، وعلم المياه، وما إلى ذلك.

ثم،استخدم الباحثون خوارزمية التجزئة لإزالة التكرارات من البيانات.يساعد هذا على تقليل مخاطر الإفراط في التجهيز أثناء التدريب المسبق للنموذج ويحسن قدرته على التعميم.

نظرًا لأن مجموعة العلوم البحرية تحتوي على مجالات وموضوعات متعددة، فإن كل موضوع له خصائص وأنماط بيانات فريدة خاصة به. من أجل محاكاة هذه البيانات والحصول عليها بشكل فعال،واقترح الباحثون إطار عمل لتوليد التعليمات المجالية يسمى DoInstruct.
*موضوعات المحيط: بناءً على خبرة علماء المحيطات، يتم تقسيم بيانات علوم المحيطات يدويًا إلى خمسة موضوعات محيطية مستقلة نسبيًا، وهي العلوم والبحث، والموارد والتنمية، والبيئة، والتكنولوجيا والهندسة، والحياة والثقافة وغيرها.

عالية الجودة/احترافية/متنوعة، يمكن لبرنامج DoInstruct إنشاء بيانات تعليمات بحرية

يعتمد إطار عمل توليد تعليمات المجال DoInstruct على التعاون بين العديد من الوكلاء ويمكنه تحقيق توليد بيانات المحيط بشكل فعال.

إطار عمل DoInstruct

كما هو موضح في الشكل أعلاه، في إطار عمل DoInstruct،قام الباحثون بتصميم ثلاثة أدوار للوكيل:العامل المتطور كمولد، والعامل الدقيق كمستخرج للأدب ومفتش. ويعتبر كل وكيل خبيرًا في مجال معين (موضوع) وهو مسؤول عن توليد البيانات المقابلة.

العامل المتطور كمولد

ولبناء مجموعة البيانات الأولية، قام الباحثون بتعيين العشرات من المحررين ذوي الخلفيات الغنية في علوم البحار، وكان كل منهم مسؤولاً عن عدة موضوعات وكتب يدويًا بعض الأمثلة التمثيلية لكل موضوع بحري.

ثم استخدم الباحثون نماذج لغوية كبيرة لتقليد البيانات الموجودة وتوليد عدد كبير من العينات المتشابهة، والتي تم فحصها جميعًا يدويًا بواسطة المعلقين. تتضمن مجموعة بيانات تعليمات البذور النهائية 5 فئات رئيسية، وأكثر من 500 فئة فرعية، وأكثر من 10000 عينة بيانات.

يسار: وكيل تجميع البيانات التطوري

بعد الحصول على مجموعة بيانات تعليمات البذور، قام الباحثون باختيار عينات منها واستدعوا العميل (gpt-3.5-turbo) لتطوير العينات المختارة.

كما هو موضح في الشكل الأيسر، على وجه التحديد، من خلال استكمال وتوسيع المعرفة الأساسية لعينات البذور، وإجراء تحليلات دقيقة وتعزيز وتحسين نقاط المعرفة الموجودة في بيانات البذور، من خلال جولات متعددة من التكرارات، يمكن للباحثين توسيع مجموعة بيانات البذور الموجودة بسرعة وتوسيع نطاق وعمق المعلومات.

الوكيل الدقيق كمستخرج للأدب

وكيل قراءة الأدب المُحسَّن

قام الباحثون بجمع مجموعة من النصوص التي علق عليها الخبراء واستخدموا خوارزمية BM25 لاسترجاع جمل عالية الجودة من مجموعة Ocean Corpus الأكبر، مع الأخذ في الاعتبار كليهما كعينات مرشحة عالية الجودة. وفي الوقت نفسه، استخدم الباحثون مجموعة بيانات تعليمات البذور لضبط gpt-3.5-turbo واعتبروا العامل الذي تم ضبطه بدقة بمثابة مستخرج مستندات يمكنه استخراج نص عالي الجودة من مجموعة المحيطات الضخمة.

وكيل التدقيق لضمان جودة البيانات: الوكيل كمفتش مع قيود القواعد

وكيل التدقيق لضمان جودة البيانات

بالنسبة للعدد الكبير من التعليمات المولدة، استخدم الباحثون القواعد النحوية والدلالات والتعريفات الأساسية لحقل المحيط وما إلى ذلك كقيود للقواعد، وقاموا ببناء وكلاء من خلال المطالبات، وقاموا بتصفية البيانات لضمان أن بيانات تعليمات المحيط المولدة كانت ذات جودة أعلى.

ولضمان جودة البيانات بشكل أكبر، قام الباحثون باختيار 10% بشكل عشوائي من مجموعة بيانات التعليمات المولدة وطلبوا من متطوعين خبراء مدربين في المجال التحقق مما إذا كانت هذه العينات تحتوي على أخطاء محتملة. حصلت البيانات النهائية على درجة IAA (الاتفاق بين المعلقين) بمقدار 0.82، وهو ما استوفى غرض البحث.

كما هو موضح في الشكل أدناه،يمكن لإطار عمل DoInstruct استخدام وكلاء متعددين لبناء مجموعات بيانات العلوم البحرية بسرعة ويمكن توسيعه إلى أكثر من 150000 تعليمة (تطوير البيانات، واستخراج البيانات). بالإضافة إلى ذلك، يتم ضمان الاحترافية ودقة البيانات أيضًا.

إحصائيات مجموعة بيانات التعليمات النهائية

وكما هو موضح في الشكل أدناه، قام الباحثون بقياس تأثير توليد البيانات لـ DoInstruct من منظور جودة المعرفة والخبرة والتنوع.

تحليل أداء الوكلاء المختلفين

يمكن ملاحظة أن وكيل المولد المتطور يمكنه تعزيز ثراء بيانات المحيط بشكل فعال. يمكن لوكيل الاستخراج تحسين احترافية المحتوى، ويمكن لوكيل المفتش تحسين جودة البيانات الناتجة. باختصار، يعد التعاون بين عدة وكلاء فعالاً في توليد القيادة في المحيط.

استنادًا إلى LLaMA-2، يعمل OceanGPT بشكل أفضل في المهام المحيطية

بعد الحصول على بيانات التعليمات، قام الباحثون بتدريب OceanGPT مسبقًا لمدة 7 أيام استنادًا إلى LLaMA-2 باستخدام 6 وحدات معالجة رسومية من نوع Nvidia A800.

الإطار العام لنموذج OceanGPT

بعد الحصول على نموذج OceanGPT المدرب مسبقًا، استخدم الباحثون طريقة LoRA لضبط النموذج. من أجل تقييم قدرات نموذج اللغة الكبير OceanGPT في المهام الأوقيانوغرافية، اختار الباحثون ثلاثة نماذج: LLaMA-2 (Llama-2-7b-chat-hf)، وVicuna-1.5، وChatGLM2-6B للمقارنة مع OceanGPT.

قبل إجراء المقارنة، قام الباحثون بتصميم اختبار معياري يسمى OCEANBENCH. كما هو موضح في الشكل أدناه، يتضمن المعيار 15 مهمة مرتبطة بالمحيط مثل التحليل والحكم وما إلى ذلك.

إحصائيات مفصلة لـ OCEANBENCH

وكما هو موضح في الشكل أدناه، قارن الباحثون أداء OceanGPT بثلاثة نماذج أساسية على مستوى المهمة في 15 مهمة فرعية في مجال المحيط.تظهر النتائج أن OceanGPT يعمل بشكل أفضل من النماذج الأخرى في كل من التقييم التلقائي والتقييم البشري.

نتائج مستوى مهمة المحيط على اليسار: التقييم التلقائي لبرنامج GPT-4، على اليمين: التقييم البشري

كما هو موضح في الشكل أعلاه، أظهر الباحثون نتائج تقييم نموذج OceanGPT في مهمة علوم المحيطات OCEANBENCH، ووجدوا أنيتفوق OceanGPT على نماذج اللغة الأساسية الأخرى في الغالبية العظمى من المهام.

نتائج تقييم OceanGPT في مهمة علوم المحيطات OCEANBENCH

من التلوث النووي إلى الروبوتات تحت الماء، انتصار OceanGPT المزدوج في المجال البحري

من أجل إثبات إمكانات تطبيق OceanGPT في مجال المحيطات، قام الباحثون باختبار OceanGPT من منظور علوم المحيطات وهندسة المحيطات.

أداة جديدة لأبحاث النويدات المشعة: يتمتع OceanGPT بعمق معرفي مهني أفضل

وفي مجال علوم المحيطات، ركز الباحثون على التلوث النووي للبيئة البحرية وقارنوا أداء OceanGPT وVicuna-7b-1.5 في هذه المهمة.

تحليل حالة مهمة العلوم البحرية: كيفية إجراء البحوث على الكيمياء السطحية والواجهة والتأثيرات السمية للنويدات المشعة الرئيسية

وكما هو موضح في الشكل أعلاه، أظهر OceanGPT مستوى أعلى من المعرفة عند وصف محتوى أبحاث النويدات المشعة. لا يتميز النص بالهيكل الواضح والتنظيم الجيد فحسب، بل يغطي أيضًا جميع جوانب البحث في النويدات المشعة، مثل التصميم التجريبي، وتحليل البيانات، وتقييم المخاطر، وإرشادات التعامل.

وعلى النقيض من ذلك، وعلى الرغم من أن Vicuna-7b-1.5 واضح ومنطقي، فإنه يفتقر إلى المحتوى الأعمق والأكثر تحديدًا المتعلق بالنويدات المشعة.

باختصار، تتمتع OceanGPT بمزايا من حيث الخبرة المعرفية والجودة والثراء.

الهندسة البحرية الذكية: OceanGPT يحقق التحكم الدقيق في الروبوتات تحت الماء

الهندسة البحرية لها أهمية بالغة لاستدامة وسلامة العمليات البحرية. لتسهيل تفاعل OceanGPT مع العالم الخارجي، قام الباحثون بتجميع بيانات كود الروبوت ودمج تعليمات كود الآلة هذه في بيانات التدريب لتقييم قدرات النموذج من خلال التعليمات البرمجية أو أوامر وحدة التحكم.

OceanGPT يتحكم في الروبوتات تحت الماء

كما هو موضح في الشكل أعلاه، يمكن لبرنامج OceanGPT إصدار تعليمات إلى الروبوتات تحت الماء من خلال التعليمات البرمجية أو أوامر وحدة التحكم حتى تتمكن الروبوتات تحت الماء من أداء مهام معقدة (بناءً على التعليمات البشرية)، مما يدل على أن برنامج OceanGPT قد اكتسب قدرات ذكاء مجسدة أولية، مما يمهد الطريق أمام نماذج المحيط المتقدمة لأداء مهام التحكم والتخطيط المعقدة في الروبوت.

"يتطور" OceanGPT مرة أخرى، ويبشر علم البحار بعصر الذكاء

بقيادة البروفيسور تشانغ نينغيو والبروفيسور تشين هوا جون من جامعة تشجيانغ، نجح فريق البحث، الذي يضم بي تشن، وشوي ييدا، وأو ييكسين، وجي دا شيونغ، وتشنغ قوه تشو وآخرين، في بناء أول نموذج لغوي كبير OceanGPT في مجال المحيطات، مما يمثل خطوة رئيسية في العملية الذكية لمجال المحيطات.لقد أصبح OceanGPT إنجازًا مهمًا في مجال المحيطات.

ومع ذلك، لم يتوقف تطوير OceanGPT عند هذا الحد. مع تعميق البحث وتحسين التكنولوجيا،دشن OceanGPT جولة جديدة من التحسين والترقية.

وفقًا لتقرير حديث صادر عن مختبر محرك المعرفة بجامعة تشجيانغ ZJUKG، أعلن المؤلف الأول للورقة البحثية، بي تشن، عن سلسلة من التطورات الرئيسية في OceanGPT:

* أولاً، إطلاق نسختين جديدتين رسميًا: OceanGPT-14B وOceanGPT-2B؛

* ثانيًا، تمت إضافة OceanGPT المستند إلى قاعدة Qwen2 الصينية لتحقيق تفاعل فعال بين الصينية والإنجليزية؛

* وفي الوقت نفسه، قام الفريق أيضًا بفتح مصدر OceanInstruct، وهي مجموعة بيانات تعليمات نموذج المحيط بمقياس 20 ألفًا، لتوفير دعم الموارد القيم للباحثين في العلوم البحرية؛

عنوان تنزيل مجموعة بيانات OceanInstruct:

https://go.hyper.ai/3QuLq

* أخيرًا، تم إصدار النسخة المتعددة الوسائط من OceanGPT-V، والتي لا تدعم معالجة المعلومات المتعددة الوسائط الخاصة بالمحيطات مثل بيانات السونار والصور العلمية فحسب، بل توفر أيضًا عرضًا توضيحيًا عبر الإنترنت لـ OceanGPT-V، مما يفتح آفاقًا وإمكانيات جديدة لاستكشاف علوم المحيطات. ويقال إن النموذج سيكون مفتوح المصدر قريبًا.

من أجل تحليل التغييرات في قدرات النموذج بعد التحديث،وباستخدام OceanGPT-14B كمثال، طرح الباحثون سؤالاً باللغة الصينية وهو: "الرجاء إعداد خطة بناء للكابلات البحرية في بحر الصين الشرقي"، كما هو موضح في الشكل أدناه:

وتظهر النتائج أن المحتوى الذي تم إنشاؤه بواسطة OceanGPT أكثر ثراءً، ويغطي مستويات أكثر، ولديه قدرة أقوى على فهم وتوليد المعرفة العلمية البحرية.

وفي الوقت نفسه، للتحقق من قدرات OceanGPT على توليد البيانات باللغة الإنجليزية، قدم الباحثون المدخلات باللغة الإنجليزية "الرجاء وصف خصائص تضاريس قاع البحر ومورفولوجيا الجيومورفولوجيا في بحر الصين الشرقي"، كما هو موضح في الشكل أدناه:

وتظهر النتائج أن الأوصاف التي تم إنشاؤها بواسطة OceanGPT جيدة نسبيًا من حيث التفاصيل والشمول والاحترافية والتقسيم الإقليمي، ويمكن أن توفر معلومات أكثر دقة وعمقًا حول تضاريس قاع البحر ومورفولوجيا الأرض.

بالإضافة إلى ذلك، قدم بي تشن أيضًا خطة تطوير OceanGPT، كما هو موضح في الشكل أدناه:

تخطيط OceanGPT

ومن المتوقع أنه في الفترة ما بين أغسطس وديسمبر 2024،سيتم إطلاق نسخة ثنائية اللغة ومتعددة الوسائط من OceanGPT-V+.وبناءً على مجموعة البيانات واسعة النطاق، سيستمرون في تدريب OceanGPT باستخدام نماذج أكبر (مثل 30B و70B)، والحفاظ على OceanGPT من خلال إضافة بيانات جديدة ومهام جديدة لاستكشاف المزيد من العوالم غير المعروفة في علوم المحيطات.

نتطلع إلى أن يجلب مشروع OceanGPT المزيد من المفاجآت والاختراقات، ويفتح فصلاً جديدًا في أبحاث العلوم البحرية!

مراجع:
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ

دعوة إلى العمل

HyperAI (hyper.ai) هو محرك بحث أكبر في الصين في مجال علوم البيانات. لقد ركزت منذ فترة طويلة على أحدث نتائج الأبحاث المتعلقة بالذكاء الاصطناعي للعلوم وقامت بتفسير أكثر من 100 ورقة أكاديمية في المجلات العلمية المرموقة.

نرحب بمجموعات البحث والفرق التي تجري أبحاثًا واستكشافات حول الذكاء الاصطناعي للعلوم بالاتصال بنا لمشاركة أحدث نتائج أبحاثهم، والمساهمة في مقالات تفسيرية متعمقة، والمشاركة في عمود البث المباشر Meet AI4S. هناك المزيد من الطرق للترويج لـ AI4S في انتظارنا لاستكشافها معًا!