مجموعة من الموارد النموذجية الضخمة | 30 مجموعة بيانات ونماذج معالجة اللغة الطبيعية عالية الجودة، و8 عروض توضيحية للاستخدام بنقرة واحدة، يوصى بجمعها!

خلال العامين الماضيين، استمرت شعبية النماذج الكبيرة في الارتفاع، وبدأ استكشافها في مجموعة أوسع من المجالات. مع التطور السريع للصناعة ككل، تتدفق المزيد والمزيد من نماذج المصدر المفتوح الكبيرة إلى السوق، مما يعزز بشكل أكبر توسع التطبيقات ذات المستوى الأعلى.
بالنسبة للمطورين، يعد اختيار النماذج ومجموعات البيانات الكبيرة عالية الجودة أمرًا بالغ الأهمية لعمليات البحث والتطوير اللاحقة وضبط النموذج. من أجل تسهيل عملية اختيار وتنزيل النماذج ومجموعات البيانات التي تتكيف مع احتياجات التطوير للجميع،لقد قامت HyperAI بتجميع بعض الموارد المتعلقة بالنماذج الكبيرة لك:
* مجموعات البيانات العامة عالية الجودة: 15
* نماذج مفتوحة المصدر عالية الجودة: 15
* مجموعة مختارة من الدروس التعليمية عالية الجودة: 8
لمزيد من الموارد النموذجية الكبيرة، يرجى زيارة الموقع الرسمي:هايبر.اي
اختيار مجموعة البيانات
1. مجموعة بيانات مفتوحة المصدر لـ seq-monkey sequence monkey 1.0
مجموعة بيانات Sequence Monkey هي مجموعة بيانات تستخدم لتدريب نموذج Sequence Monkey، وتغطي مجالات بما في ذلك: مجموعة النصوص الصينية العامة، ومجموعة نصوص ترجمة الشعر القديم، ومجموعة نصوص إنشاء النصوص.
الاستخدام المباشر:https://hyper.ai/datasets/30139
2. مجموعة استخراج المعلومات واسعة النطاق IEPile
IEPile هي مجموعة بيانات ضبط تعليمات استخراج المعلومات (IE) ثنائية اللغة (الصينية والإنجليزية) واسعة النطاق وعالية الجودة، طورتها جامعة تشجيانغ، وتغطي مجالات متعددة مثل الطب والتمويل.
الاستخدام المباشر:https://hyper.ai/datasets/30064
3. مجموعة بيانات محاذاة السياق الطويل LongAlign-10K ذات النموذج الكبير
تم اقتراح LongAlign-10k من قبل جامعة تسينغهوا. إنها مجموعة بيانات مصممة لمعالجة التحديات التي تواجهها النماذج الكبيرة في مهام المحاذاة ذات السياق الطويل. يحتوي على 10000 من بيانات التعليمات الطويلة بطول يتراوح بين 8 كيلو بايت و64 كيلو بايت.
الاستخدام المباشر:https://hyper.ai/datasets/30247
4. مجموعة بيانات ديانبينغ
تحتوي مجموعة البيانات على 4.4 مليون مراجعة أو تقييم من 540 ألف مستخدم على 240 ألف مطعم. يمكن استخدامه لمهام مثل أنظمة التوصية، وتحليل اتجاهات المشاعر/الرأي/التعليق، وما إلى ذلك.
الاستخدام المباشر:https://hyper.ai/datasets/29993
5. مجموعة بيانات مراجعات مستخدمي أمازون
تحتوي مجموعة البيانات على 7.2 مليون مراجعة أو تصنيف من 1.42 مليون مستخدم لـ 520 ألف منتج في أكثر من 1100 فئة على موقع أمازون. يمكن استخدامه لمهام مثل أنظمة التوصية وتحليل اتجاهات المشاعر/الرأي/المراجعة.
الاستخدام المباشر:https://hyper.ai/datasets/30009
6. مجموعة بيانات فهم القراءة باللغة الصينية لصحيفة الشعب اليومية (PD&CFT)
تُعد مجموعة البيانات هذه أول مجموعة بيانات لفهم القراءة باللغة الصينية، والتي تتضمن صحيفة الشعب اليومية وحكايات الأطفال الخيالية (PD&CFT).
الاستخدام المباشر:https://hyper.ai/datasets/29260
7. مجموعة بيانات تصنيف النصوص الصينية توتياو
هذه المجموعة من البيانات هي مجموعة بيانات تصنيفية لأخبار توتياو الصينية (نص قصير). مصدر البيانات هو عميل Toutiao. يحتوي على 15 فئة و 382,688 نصًا.
الاستخدام المباشر:https://hyper.ai/datasets/29517
8. مجموعة بيانات معيارية FewJoint
تأتي مجموعة البيانات هذه من منصة iFlytek AIUI المفتوحة. يحتوي على مجموعة من المستخدمين الحقيقيين ومجموعة من النصوص التي أنشأها الخبراء (بنسبة حوالي 3:7)، بإجمالي 59 نطاقًا حقيقيًا. إنها إحدى مجموعات بيانات المحادثة التي تحتوي على أكبر عدد من المجالات حاليًا.
الاستخدام المباشر:https://hyper.ai/datasets/29239
9. PAWS-X: مجموعة بيانات متعددة اللغات لتحديد العبارات المعاد صياغتها
تحتوي مجموعة البيانات على 23,659 زوجًا من تقييمات PAWS المترجمة إلى اللغة البشرية و296,406 زوجًا من التدريب المترجم إلى اللغة الآلية في 6 لغات مختلفة: الفرنسية والإسبانية والألمانية والصينية واليابانية والكورية. يتم استخلاص جميع أزواج الترجمة من الأمثلة الموجودة في PAWS-Wiki.
الاستخدام المباشر:https://hyper.ai/datasets/29264
10. ويكيبيديا
تم إنشاء مجموعة البيانات من تفريغ ويكيبيديا وتحتوي على 56 لغة، مع مجموعة فرعية واحدة لكل لغة وكل مجموعة فرعية تحتوي على تقسيم تدريبي واحد. يحتوي كل مثال على محتوى مقالة ويكيبيديا كاملة، تم تنظيفها لإزالة العلامات والأجزاء غير المرغوب فيها (المراجع، وما إلى ذلك).
الاستخدام المباشر:https://hyper.ai/datasets/28528
11. RJUA-QA: أول مجموعة بيانات استدلالية للإجابة على أسئلة التخصصات الطبية الصينية
تحتوي مجموعة بيانات RJUA-QA على إجمالي 2132 زوجًا من الأسئلة والأجوبة. يتكون كل زوج من الأسئلة والأجوبة من سؤال كتبه طبيب بناءً على الخبرة السريرية، وإجابة يقدمها خبير، وسياق التفكير ذي الصلة. يتم استخلاص معلومات السياق من المبادئ التوجيهية الصينية لتشخيص وعلاج أمراض المسالك البولية والذكورة.
الاستخدام المباشر:https://hyper.ai/datasets/28970
١٢. ShareGPT ٩٠ ألف قاعدة بيانات ثنائية اللغة للإجابة على أسئلة الإنسان والحاسوب باللغتين الصينية والإنجليزية
ShareGPT-Chinese-English-90k عبارة عن مجموعة بيانات عالية الجودة للإجابة على أسئلة الإنسان والآلة باللغتين الصينية والإنجليزية بالتوازي، وتغطي أسئلة المستخدم في السيناريوهات الحقيقية والمعقدة. يمكن استخدامه لتدريب نماذج الحوار عالية الجودة.
الاستخدام المباشر:
https://hyper.ai/datasets/29523
13. مجموعة بيانات التعرف على نية المحادثة الصينية SMP-2017
تعتبر مجموعة البيانات هذه مجموعة بيانات مهمة 1 لتقييم تكنولوجيا الحوار بين الإنسان والحاسوب الصينية (ECDT) في مشروع SMP2017.
الاستخدام المباشر:https://hyper.ai/datasets/29515
14. الشعر الصيني - قاعدة بيانات مجموعة الشعر الكلاسيكي الصيني
تُعد مجموعة البيانات هذه قاعدة البيانات الأكثر شمولاً للأدب الكلاسيكي الصيني، حيث تتضمن 55 ألف قصيدة من قصيدة تانغ، و260 ألف قصيدة من قصيدة سونغ، و21 ألف قصيدة من قصيدة سونغ وغيرها من الأدب الكلاسيكي.
الاستخدام المباشر:https://hyper.ai/datasets/29257
15. MCFEND مجموعة بيانات مرجعية متعددة المصادر للكشف عن الأخبار الكاذبة الصينية
تُعد مجموعة البيانات هذه مجموعة بيانات مرجعية متعددة المصادر للكشف عن الأخبار المزيفة في الصين، تم إنشاؤها بشكل مشترك من قبل جامعة هونج كونج المعمدانية والجامعة الصينية في هونج كونج ومؤسسات أخرى.
الاستخدام المباشر:https://hyper.ai/datasets/30429
لمزيد من مجموعات البيانات العامة، يرجى زيارة:
مجموعة كبيرة من النماذج
1. ميكسترال-8x7B
هذا النموذج هو نموذج لغوي كبير أطلقته Mistral AI استنادًا إلى Mistral 7B.
الاستخدام المباشر:https://openbayes.com/console/public/models/f1Ze9ci0tAZ/1/overview
2. C4AI Command-R
C4AI Command-R هو نموذج توليدي عالي الأداء يحتوي على 35 مليار معلمة تم تطويره بشكل مشترك بواسطة Cohere وCohere For AI. يمنح الجمع بين قدرات التوليد متعدد اللغات وقدرات RAG عالية الأداء Command-R ميزة فريدة في المهام متعددة اللغات والمهام التي تتطلب معرفة مكثفة.
الاستخدام المباشر:https://openbayes.com/console/public/models/moNFtsf3XUe/1/overview
3. نموذج مالي كبير deepmoney-34B-chat
تم تدريب النموذج على أساس Yi-34B-200K وينقسم إلى مرحلتين: pt (تدريب المعلمات الكاملة) و sft (ضبط دقيق للورا).
الاستخدام المباشر:https://openbayes.com/console/public/models/yiEoQipyFCK/1/overview
4. سلسلة ChatGLM3
ChatGLM3 هو نموذج تدريب مسبق للمحادثة تم إصداره بشكل مشترك من قبل Zhipu AI ومختبر KEG بجامعة Tsinghua.
ChatGLM3-6B
هذا النموذج هو نموذج مفتوح المصدر في سلسلة ChatGLM3، والذي يحتفظ بالعديد من الميزات الممتازة للجيلين السابقين من النماذج، مثل المحادثة السلسة وعتبة النشر المنخفضة.
الاستخدام المباشر:https://openbayes.com/console/public/models/mHwG5TYJVTU/1/overview
قاعدة ChatGLM3-6B
هذا النموذج هو النموذج الأساسي لـ ChatGLM3-6B، والذي يعتمد على بيانات تدريب أكثر تنوعًا وخطوات تدريب أكثر كفاية واستراتيجيات تدريب أكثر معقولية.
الاستخدام المباشر:https://openbayes.com/console/public/models/7CzPfTweYvU/1/overview
5. سلسلة LLaVA-v1.5
LLaVA هو نموذج قادر على التحويل المتعدد الوسائط بين الرؤية واللغة، ويتكون من مشفر بصري ونموذج لغوي كبير (Vicuna v1.5 13B).
LLaVA-v1.5-7B
النموذج عبارة عن نموذج مكون من 7 مليار معلمة من عائلة LLaVA-v1.5.
الاستخدام المباشر:https://openbayes.com/console/public/models/ZRdv9aF1hGF/1/overview
LLaVA-v1.5-13B
النموذج عبارة عن نموذج مكون من 13 مليار معلمة من عائلة LLaVA-v1.5.
الاستخدام المباشر:https://openbayes.com/console/public/models/PagJNrY85MC/1/overview
6. سلسلة Yi-34B
نماذج سلسلة Yi هي نماذج لغوية كبيرة مفتوحة المصدر تم تدريبها من الصفر بواسطة 01.AI. سلسلة النماذج التالية هي نماذج ذات صلة بحجمها 34B.
دردشة Yi-34B
هذا النموذج من سلسلة Yi-34B وهو نموذج دردشة مناسب لمجموعة متنوعة من سيناريوهات المحادثة.
الاستخدام المباشر:https://openbayes.com/console/public/models/6FUjDvKGZNT/1/overview
Yi-34B-Chat-GGUF
هذا النموذج هو تنسيق GGUF من Yi-34B-Chat.
الاستخدام المباشر:https://openbayes.com/console/public/models/1QqoTcU07zG/1/overview
Yi-34B-Chat-4bits
هذا النموذج هو نسخة كمية 4 بت من نموذج Yi-34B-Chat ويمكن استخدامه مباشرة على بطاقات الرسوميات المخصصة للمستهلك (مثل RTX3090).
الاستخدام المباشر:https://openbayes.com/console/public/models/JJCjA8x48ev/1/overview
7. سلسلة Qwen Tongyi Qianwen النموذجية الكبيرة
Qwen هي سلسلة من نماذج اللغة واسعة النطاق التي أطلقتها Alibaba Cloud، بما في ذلك نماذج مختلفة مع أعداد مختلفة من المعلمات. وهو يتضمن Qwen (نموذج اللغة الأساسي المدرب مسبقًا) وQwen-Chat (نموذج الدردشة)، ويتم ضبط نموذج الدردشة باستخدام تقنية المحاذاة البشرية.
Qwen1.5-1.8B-دردشة
Qwen1.5 هو الإصدار التجريبي من Qwen2، وهو إصدار نموذج الدردشة الأصغر في سلسلة Qwen2 مع حجم معلمات يبلغ 1.8 مليار.
الاستخدام المباشر:
https://openbayes.com/console/public/models/A83bxItlb1M/1/overview
Qwen-14B-Chat-Int4
Qwen-14B-Chat هو نموذج دردشة يحتوي على 14 مليار معلمة في سلسلة النماذج الكبيرة Tongyi Qianwen. هذا النموذج هو نموذجه الكمي Int4.
الاستخدام المباشر:https://openbayes.com/console/public/models/tlA61MKMb7C/1/overview
دردشة Qwen-72B
هذا النموذج هو نموذج مكون من 72 مليار معلمة في سلسلة النماذج الكبيرة Tongyi Qianwen.
الاستخدام المباشر:https://openbayes.com/console/public/models/IyhI1wCMCvU/1/overview
Qwen-72B-Chat-Int4
هذا النموذج هو نموذج Int4 الكمي لـ Qwen-72B-Chat.
الاستخدام المباشر:https://openbayes.com/console/public/models/XVAkUec0H5e/1/overview
Qwen-72B-Chat-Int8
هذا النموذج هو نموذج Int8 الكمي لـ Qwen-72B-Chat.
الاستخدام المباشر:https://openbayes.com/console/public/models/LEnvRTil8Xe/1/overview
مجموعة مختارة من الدروس التعليمية عالية الجودة
1. قم بتشغيل Qwen1.5-MoE عبر الإنترنت
Qwen1.5-MoE-A2.7B هو أول نموذج MoE من سلسلة Qwen التي أطلقها فريق Tongyi Qianwen. هذا البرنامج التعليمي هو حاوية تجريبية. بإمكانك استخدام رابط Gradio لتجربة النموذج الكبير عن طريق استنساخه بنقرة واحدة.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/1xfftSx42TR
2. Qwen-14B-Chat-Int4 نموذج Gradio التجريبي
هذا البرنامج التعليمي عبارة عن حاوية تجريبية لـ Qwen-14B-Chat-Int4. يمكنك استنساخه بنقرة واحدة واستخدام رابط Gradio لتجربة النموذج الكبير.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/hqe2P86oMDA
3. عرض توضيحي لنموذج Qwen-1.8B-Chat-API-FT
يوضح هذا البرنامج التعليمي بشكل أساسي كيفية تشغيل نموذج Qwen-1.8B-Chat والعملية الرئيسية للضبط الدقيق.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/C8OUoAlBR1m
4. عرض توضيحي لنموذج Qwen-72B-Chat-Int4
هذا البرنامج التعليمي عبارة عن حاوية تجريبية لـ Qwen-72B-Chat-Int4. يمكنك استنساخه بنقرة واحدة واستخدام رابط Gradio لتجربة النموذج الكبير.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/Gr4tiYYq24K
5. قم بتشغيل نموذج التكميم لـ Yi-34B-Chat عبر الإنترنت
يوضح هذا البرنامج التعليمي بشكل أساسي العملية الرئيسية لاستخدام LlamaEdge لتشغيل النموذج الكمي Yi-34B-Chat.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/v6ZVAzejUCM
6. تشغيل النموذج المالي Deepmoney-34B-full عبر الإنترنت
Deepmoney هو مشروع نموذج لغوي واسع النطاق يركز على الاستثمارات في المجال المالي. تم تدريب Deepmoney-34B-full بناءً على نموذج Yi-34B-200K وينقسم إلى مرحلتين: pt (تدريب المعلمات الكاملة) و sft (ضبط Lora الدقيق). يمكنك الآن استنساخه واستخدامه بنقرة واحدة على الموقع الرسمي لـSuper Neuro.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/uBYYEnxdpce
7. نقرة واحدة لتشغيل النسخة التجريبية من Yi-9B
Yi-9B هو النموذج الذي يتمتع بأقوى قدرات البرمجة والرياضيات في سلسلة Yi. هذا البرنامج التعليمي عبارة عن حاوية تجريبية لـ Yi-9B.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/BitjtzfuNLb
8. النشر السريع لـ ChatGLM2-6B
هذا البرنامج التعليمي عبارة عن حاوية تجريبية لـ ChatGLM2-6B. يمكنك استنساخه بنقرة واحدة واستخدام رابط Gradio لتجربة النموذج الكبير.
تشغيل عبر الإنترنت:https://openbayes.com/console/public/tutorials/KD5azt9z9tn
ما ورد أعلاه هو كل المحتوى الذي تم اختياره بواسطة محرر النموذج الكبير. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة
* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك: