التاريخ

منذ 2 أعوام

الحجم

649.13 MB

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

LLM

معالجة اللغة الطبيعية

لغة

تدريب النموذج

M2Lingual عبارة عن مجموعة بيانات ضبط التعليمات (IFT) متعددة اللغات ومتعددة الجولات تهدف إلى تحسين أداء نماذج اللغة الكبيرة (LLMs) في اتباع التعليمات، وخاصة في اللغات والمهام المتنوعة. تم إنشاء مجموعة البيانات في عام 2024 بواسطة فريق بحثي من ServiceNow وجامعة إلينوي في شيكاغو. تتضمن الميزات الرئيسية لمجموعة بيانات M2Lingual ما يلي:

تغطية متعددة اللغاتيغطي M2Lingual 70 لغة مختلفة، مما يوفر المزيد من بيانات التدريب للغات ذات الموارد المنخفضة.
حوار متعدد الأدوار:تحتوي مجموعة البيانات على جولات متعددة من التعليمات والاستجابات، مما يعزز قدرة النموذج على التعامل مع سيناريوهات الحوار المعقدة.
موجه نحو المهام:يتضمن M2Lingual 17 مهمة معالجة اللغة الطبيعية (NLP)، مثل التلخيص، والإجابة على الأسئلة، وأزواج الأوامر والاستجابة العامة.
على نطاق واسعتحتوي مجموعة البيانات على إجمالي 182000 زوجًا من تعليمات الضبط الدقيق، مما يوفر عينات تدريبية غنية.
مجموعة بيانات اصطناعيةM2Lingual عبارة عن مجموعة بيانات اصطناعية بالكامل تم إنشاؤها باستخدام تصنيف تطوري محدد، مما يضمن تنوع البيانات وتعقيدها.
تحسينات الأداء:يظهر برنامج LLM الذي تم ضبطه باستخدام M2Lingual أداءً متفوقًا مقارنة بمجموعات بيانات IFT متعددة اللغات الموجودة على معايير تقييم متعددة. يقدم تقديم M2Lingual حلاً جديدًا لمشكلة محاذاة التعليمات متعددة اللغات ومتعددة الجولات، مما يساعد على تحسين التطبيق العملي ودقة نماذج اللغة الكبيرة في البيئات متعددة اللغات.

M2Lingual.torrent

البذر 1جارٍ التنزيل 0مكتمل 226إجمالي التنزيلات 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 2 أعوام

الحجم

649.13 MB

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

LLM

معالجة اللغة الطبيعية

لغة

تدريب النموذج

تغطية متعددة اللغاتيغطي M2Lingual 70 لغة مختلفة، مما يوفر المزيد من بيانات التدريب للغات ذات الموارد المنخفضة.
حوار متعدد الأدوار:تحتوي مجموعة البيانات على جولات متعددة من التعليمات والاستجابات، مما يعزز قدرة النموذج على التعامل مع سيناريوهات الحوار المعقدة.
موجه نحو المهام:يتضمن M2Lingual 17 مهمة معالجة اللغة الطبيعية (NLP)، مثل التلخيص، والإجابة على الأسئلة، وأزواج الأوامر والاستجابة العامة.
على نطاق واسعتحتوي مجموعة البيانات على إجمالي 182000 زوجًا من تعليمات الضبط الدقيق، مما يوفر عينات تدريبية غنية.
مجموعة بيانات اصطناعيةM2Lingual عبارة عن مجموعة بيانات اصطناعية بالكامل تم إنشاؤها باستخدام تصنيف تطوري محدد، مما يضمن تنوع البيانات وتعقيدها.
تحسينات الأداء:يظهر برنامج LLM الذي تم ضبطه باستخدام M2Lingual أداءً متفوقًا مقارنة بمجموعات بيانات IFT متعددة اللغات الموجودة على معايير تقييم متعددة. يقدم تقديم M2Lingual حلاً جديدًا لمشكلة محاذاة التعليمات متعددة اللغات ومتعددة الجولات، مما يساعد على تحسين التطبيق العملي ودقة نماذج اللغة الكبيرة في البيئات متعددة اللغات.

M2Lingual.torrent

البذر 1جارٍ التنزيل 0مكتمل 226إجمالي التنزيلات 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

منذ 3 أشهر

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

منذ 3 أشهر

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

منذ 5 أشهر

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

منذ 5 أشهر

مجموعة بيانات RubricHub_v1 متعددة المجالات للمهام التوليدية

منذ 5 أشهر

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 6 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات الضبط الدقيق للتعليمات متعددة اللغات ومتعددة الجولات M2Lingual

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات الضبط الدقيق للتعليمات متعددة اللغات ومتعددة الجولات M2Lingual

مجموعات البيانات ذات الصلة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات RubricHub_v1 متعددة المجالات للمهام التوليدية

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات الضبط الدقيق للتعليمات متعددة اللغات ومتعددة الجولات M2Lingual

مجموعات البيانات ذات الصلة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات RubricHub_v1 متعددة المجالات للمهام التوليدية

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات RubricHub_v1 متعددة المجالات للمهام التوليدية

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعات البيانات ذات الصلة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات RubricHub_v1 متعددة المجالات للمهام التوليدية

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات