HyperAI

معلومات قوية! احصل على 20 مجموعة بيانات شائعة حول ماجستير القانون الصيني بنقرة واحدة

منذ عام واحد
مجموعة البيانات
OpenBayes Bot
特色图像

المقالة التالية من OpenBayes Bayesian Computing، المؤلف Xiaobei

الحوسبة البايزية OpenBayes.

OpenBayes هي الشركة الرائدة في تقديم خدمات الحوسبة عالية الأداء في الصين. من خلال دمج أنظمة البرمجيات الكلاسيكية ونماذج التعلم الآلي على جيل جديد من الرقائق غير المتجانسة، فإنها توفر منتجات حوسبة علوم البيانات أسرع وأسهل استخدامًا للمؤسسات الصناعية والبحث الجامعي. لقد خدمت حاليًا العشرات من الشركات الصناعية الكبرى ومعاهد الأبحاث الرائدة.

منذ تشات جي بي تي  منذ إطلاقه،لقد أحدث نموذج اللغة الكبير (LLM) ضجة كبيرة في مختلف المجالات بفضل قدرته المتميزة على التعلم.لا يمكن فصل تدريب وضبط النماذج الكبيرة عن دعم البيانات عالية الجودة وواسعة النطاق. لا توفر مجموعات البيانات المصممة بعناية الوقود الكافي للنماذج الكبيرة فحسب، بل تجعل من الممكن أيضًا تطبيق النماذج الكبيرة وتحقيق أداء أفضل في المجالات الرأسية.

تقوم هذه المقالة بتصنيف بعض مجموعات البيانات العامة الصينية الشائعة المناسبة للتدريب والضبط النموذجي الكبير (مرتبة حسب الترتيب الأبجدي).لكي يفهمها الجميع ويستخدمها.

نصائح لطيفة:

يمكن استخدام جميع مجموعات البيانات المدرجة في هذه المقالة مباشرةً في تدريب النموذج ونشره من خلال الإدخال بنقرة واحدة على منصة OpenBayes.com.

الرابط المباشر:

https://openbayes.com/console/public/datasets

1 مسائل رياضيات على مستوى المدرسة الابتدائية الصينية Ape210K

* الجهة المصدرة:مختبر يوانفوداو للذكاء الاصطناعي، جامعة نورث وسترن

* العلامات ذات الصلة:المهام الحسابية وتوليد النصوص

الاستخدام المباشر:https://hyper.ai/datasets/28445

Ape210K عبارة عن مجموعة بيانات جديدة واسعة النطاق وغنية بالقالب لمسائل الكلمات الرياضية.يحتوي على 210 ألف مسألة رياضيات على مستوى المدارس الابتدائية الصينية. يتضمن كل سؤال الإجابة الأفضل والمعادلة اللازمة للوصول إلى الإجابة.

2 مجموعة بيانات بيل

* الجهة المصدرة:اي فلاي تيك، سي سي إل، اتش اف ال

* العلامات ذات الصلة:توليد النص، الصينية

* الاستخدام المباشر:https://hyper.ai/datasets/28451

تستخدم مجموعة البيانات هذه مجموعة تقييم مكونة من 1000 عينة لتقييم نماذج مختلفة، وتغطي 9 سيناريوهات واقعية.يحتوي على ما يقرب من 3.5 مليون من بيانات الأوامر الصينية التي تم إنشاؤها بواسطة مشروع BELLE.

3 الفريق الصيني 

مجموعة بيانات فهم القراءة الآلية الصينية

* العلامات ذات الصلة:أسئلة وأجوبة استخلاصية، أسئلة وأجوبة ذكية

* الاستخدام المباشر:https://hyper.ai/datasets/28476

هذه المجموعة من البيانات عبارة عن مجموعة بيانات فهم القراءة الآلية الصينية، والتي تم تحويلها من Squad الأصلية من خلال الترجمة الآلية والتصحيح اليدوي، بما في ذلك الإصدارين V1.1 وV2.0.

4 مجموعة بيانات تقييم فهم القراءة الآلية الصينية CMRC 2018

* الجهة المصدرة:اي فلاي تيك، سي سي إل، اتش اف ال

* العلامات ذات الصلة:إنشاء النص

* الاستخدام المباشر:https://hyper.ai/datasets/28470

تحتوي مجموعة البيانات هذه على البيانات المستخدمة في تقييم فهم القراءة الآلية الصينية iFLYTEK Cup الثاني (CMRC 2018) وتم قبولها من قبل EMNLP 2019، المؤتمر الدولي الأول في اللغويات الحاسوبية.

5 كروس ووز  مجموعة بيانات الحوار الموجه نحو المهام

* الجهة المصدرة:جامعة تسينغهوا، BNRIST

* العلامات ذات الصلة:مجموعة بيانات الإجابة على الأسئلة، باللغة الصينية

* الاستخدام المباشر:https://hyper.ai/datasets/28442

CrossWOZ هي أول مجموعة بيانات صينية واسعة النطاق موجهة للمهام وموجهة لـ Wizard-of-Oz.يحتوي على 6 آلاف حوار و 102 ألف جملة في 5 سيناريوهات (المعالم السياحية والفنادق والمطاعم ومترو الأنفاق وسيارات الأجرة). بالإضافة إلى ذلك، يحتوي النص على تعليقات غنية لحالات الحوار وسلوكيات الحوار بين المستخدمين والنظام.

6 دي آر سي دي مجموعة بيانات دلتا لفهم القراءة

* الجهة المصدرة:مركز دلتا للأبحاث، دلتا للإلكترونيات

* العلامات ذات الصلة:كشف النص، التعلم الآلي

* الاستخدام المباشر:https://hyper.ai/datasets/28473

مجموعة بيانات فهم القراءة دلتا (DRCD) هي مجموعة بيانات فهم القراءة الآلية الصينية التقليدية للأغراض العامة.تهدف مجموعة البيانات هذه إلى أن تصبح مجموعة بيانات قياسية لفهم القراءة الآلية باللغة الصينية.يحتوي على 10,014 فقرة من 2,108 مقالة ويكيبيديا وأكثر من 30,000 سؤال تم إنشاؤها بواسطة المعلقين البشريين.

7 مجموعة محادثات دوبان مجموعة دوبان للمحادثات

* الجهة المصدرة:جامعة بيهانغ، جامعة نانكاى، MSR

* العلامات ذات الصلة:تحليل الأسئلة والأجوبة، ومعالجة اللغة الطبيعية

* الاستخدام المباشر:https://hyper.ai/datasets/28497

تتضمن مجموعة البيانات هذه مجموعة بيانات تدريبية ومجموعة بيانات تطوير ومجموعة اختبار لروبوت المحادثة القائم على الاسترجاع.تحتوي بيانات الاختبار على 1000 سياق محادثة.بالنسبة لكل سياق، تم إنشاء 10 استجابات كمرشحين.

8 ديوريدر  مجموعة بيانات الإجابة على الأسئلة

* الجهة المصدرة:بايدو

* العلامات ذات الصلة:مجموعة بيانات الإجابة على الأسئلة، والإجابة الذكية على الأسئلة

* الاستخدام المباشر:https://hyper.ai/datasets/28461

DuReader عبارة عن مجموعة بيانات ونموذج معياري يركز على مجال فهم القراءة الآلية، ويُستخدم بشكل أساسي في مهام الإجابة على الأسئلة الذكية.

9 النسخة الصينية من E-KAR معيار للتفكير القياسي القابل للتفسير والذي يعتمد على المعرفة المكثفة

* الجهة المصدرة:جامعة فودان، مختبر بايت دانس للذكاء الاصطناعي، شركة برين تكنولوجيز.

* العلامات ذات الصلة:توليد النصوص، معالجة اللغة الطبيعية

* الاستخدام المباشر:https://hyper.ai/datasets/28517

E-KAR تعني معيار الاستدلال القياسي المكثف بالمعرفة القابلة للتفسير، وهو معيار للاستدلال القياسي المكثف بالمعرفة القابلة للتفسير. لا تستطيع معايير اختبار تشبيه الكلمات الحالية الكشف عن العملية الأساسية للتفكير القياسي في النماذج العصبية. يعتقد الباحثون أن النماذج ذات القدرة على التفكير المنطقي يجب أن تستخدم الأسباب الصحيحة كمعتقدات أساسية.لذلك، نقترح أول معيار للاستدلال القياسي القابل للتفسير والمعرفة (E-KAR).تتكون مجموعة البيانات المرجعية من 1655 سؤالاً (باللغة الصينية) و1251 سؤالاً (باللغة الإنجليزية) من امتحان الخدمة المدنية، والتي تتطلب معرفة خلفية واسعة لحلها.

10 FCGEC  مجموعة بيانات اكتشاف أخطاء قواعد اللغة الصينية وتصحيحها

* الجهة المصدرة:جامعة تشجيانغ، هواوي

* العلامات ذات الصلة:اكتشاف النص

* الاستخدام المباشر:https://hyper.ai/datasets/28512

FCGEC تعني مجموعة من النصوص الدقيقة لتصحيح الأخطاء النحوية الصينية.إنه عبارة عن مجموعة كبيرة من النصوص التصحيحية متعددة المراجع للمتحدثين الأصليين، تستخدم لتدريب وتقييم نظام نموذج تصحيح الأخطاء. المصادر الرئيسية للبيانات هي أسئلة اختبار الجمل غير الصحيحة لطلاب المدارس الابتدائية والمتوسطة والثانوية ومواقع تجميع الأخبار.

11 كي دي كونف  مجموعة بيانات المحادثة الصينية متعددة المجالات

* الجهة المصدرة:جامعة تسينغهوا

* العلامات ذات الصلة:إنشاء النص

* الاستخدام المباشر:https://hyper.ai/datasets/28507

KdConv عبارة عن مجموعة بيانات محادثة صينية متعددة المجالات تعتمد على المعرفة، حيث تقوم ببناء الموضوعات في المحادثات متعددة الجولات على رسم بياني للمعرفة. يحتوي KdConv على 4.5 ألف حوار من ثلاثة مجالات (الأفلام والموسيقى والسفر)، و86 ألف عبارة بمتوسط اضطراب يبلغ 19.0.مناسب لنمذجة تفاعلات المعرفة في الحوارات الإنسانية متعددة الأدوار، بما في ذلك تخطيط المعرفة، وقاعدة المعرفة، وتكييف المعرفة، وما إلى ذلك.

12 ماث 23ك  مجموعة بيانات كلمات الرياضيات

* الجهة المصدرة:مختبر تينسنت للذكاء الاصطناعي

* العلامات ذات الصلة:مجموعة من المسائل الرياضية

* الاستخدام المباشر:https://hyper.ai/datasets/28504

Math23K هو الاسم الكامل لـ Math23K لحل مشاكل الكلمات الرياضية.هي مجموعة بيانات تم إنشاؤها لحل مسائل الكلمات الرياضية.يحتوي على 23,162 سؤالاً صينياً تم جمعها من الإنترنت.

13 ميدديالوج  مجموعة بيانات الحوار بين الطبيب والمريض الصيني

* العلامات ذات الصلة:البحث الطبي ومجموعات البيانات المحادثة

* الاستخدام المباشر:https://hyper.ai/datasets/28483

MedDialog هي مجموعة بيانات محادثة طبية واسعة النطاق تحتوي على 1.1 مليون محادثة و4 ملايين عبارة بين الأطباء والمرضى.

14 ODSQA  مجموعة بيانات الإجابة على الأسئلة المنطوقة في المجال المفتوح

* الجهة المصدرة:جامعة تايوان الوطنية

* العلامات ذات الصلة:الإجابة الذكية على الأسئلة، ومعالجة اللغة الطبيعية

* الاستخدام المباشر:https://hyper.ai/datasets/28500

مجموعة بيانات ODSQA عبارة عن مجموعة بيانات للغة المنطوقة للإجابة على الأسئلة الصينية.ويحتوي على أكثر من ثلاثة آلاف سؤال من 20 متحدثًا مختلفًا.

15 ريد جي بي تي إنشاء مجموعات بيانات الحوار الواقعية تلقائيًا

* العلامات ذات الصلة:توليد النصوص، معالجة اللغة الطبيعية

* الاستخدام المباشر:https://hyper.ai/datasets/28448

الاسم الكامل لـ RedGPT هو Reference-Enlightened-Dialogue بواسطة GPT و لـ GPT. الدقة الواقعية هي نقطة ضعف رئيسية في ChatGPT. لتحسين دقة الحقائق، يمكن التعليق على كمية كبيرة من بيانات المحادثة الواقعية من أجل ضبط نموذج GPT. لتجنب التكلفة الباهظة للوسم اليدوي،واقترح الباحثون طريقة لإنشاء حوارات واقعية تلقائيًا وجعلوا بعض البيانات عامة (RedGPT-Dataset-V1-CN)، والتي تحتوي على ما مجموعه 50 ألف حوار متعدد الجولات باللغة الصينية.

16 مجموعة الأمم المتحدة الموازية  مجموعة وثائق الأمم المتحدة الموازية الإصدار 1.0

* الجهة المصدرة:جامعة تسينغهوا، BNRIST

* العلامات ذات الصلة:مجموعة بيانات الإجابة على الأسئلة، باللغة الصينية

* الاستخدام المباشر:https://hyper.ai/datasets/28464

CrossWOZ هي أول مجموعة بيانات صينية واسعة النطاق موجهة للمهام وموجهة لـ Wizard-of-Oz.يحتوي على 6 آلاف حوار و 102 ألف جملة في 5 سيناريوهات (المعالم السياحية والفنادق والمطاعم ومترو الأنفاق وسيارات الأجرة). بالإضافة إلى ذلك، يحتوي النص على تعليقات غنية لحالات الحوار وسلوكيات الحوار بين المستخدمين والنظام.

17 هيئة المؤهلات البصرية  مجموعة بيانات الإجابة على الأسئلة المرئية

* العلامات ذات الصلة:الإجابة على الأسئلة المرئية، مجموعة بيانات الإجابة على الأسئلة

* الاستخدام المباشر:https://hyper.ai/datasets/28455

لقد ساهم تطوير التعلم العميق في تعزيز حل المهام المتعلقة بالتعلم المتعدد الوسائط. الإجابة على الأسئلة المرئية (VQA) هي مثال صعب للغاية، ويتطلب تفسير المشهد على مستوى عالٍ من خلال الصور ونمذجة لغة الإجابة على الأسئلة ذات الصلة.بالنظر إلى صورة وسؤال باللغة الطبيعية حول الصورة، فإن المهمة هي تقديم إجابة دقيقة باللغة الطبيعية.هذا هو نظام متكامل تم تنفيذه باستخدام Keras بهدف إنجاز هذه المهمة.

18 WebQA الإصدار 1.0  مجموعة بيانات الإجابة على الأسئلة الصينية في بايدو

* الجهة المصدرة:بايدو

* العلامات ذات الصلة:التعلم العميق والإجابة الذكية على الأسئلة

* الاستخدام المباشر:https://hyper.ai/datasets/28467

هذه مجموعة بيانات فتحتها Baidu في عام 2016. تأتي البيانات من Baidu Knows. الشكل عبارة عن سؤال يحتوي على عدة مقالات تحمل نفس المعنى بشكل أساسي، والتي تنقسم إلى الشرح اليدوي والاسترجاع من المتصفح.

19 مجموعة وصفات شياتشو فانغ  مجموعة وصفات شياشوفانغ

* العلامات ذات الصلة:التعرف على النص، كشف النص

* الاستخدام المباشر:https://1lh.cc/4jaL8b

تحتوي مجموعة الوصفات هذه على 1,520,327 وصفة صينية.ومن بين هذه الوصفات، تنتمي 1,242,206 إلى 30,060 طبقًا. في المتوسط، يحتوي الطبق الواحد على 41.3 وصفة. وصفات مساهمة من 415,272 مؤلف. ومن بينهم، قام المؤلف الأكثر إنتاجية بتحميل 5,394 وصفة.

* الاستخدام المباشر:https://hyper.ai/datasets/28489

20 إكس كواد  مجموعة بيانات الإجابة على الأسئلة متعددة اللغات

* الجهة المصدرة:اي فلاي تيك، سي سي إل، اتش اف ال

* العلامات ذات الصلة:تحليل الأسئلة والأجوبة وفهم القراءة

* الاستخدام المباشر:https://hyper.ai/datasets/28458

XQuAD (مجموعة بيانات الإجابة على الأسئلة عبر اللغات) هي مجموعة بيانات مرجعية لتقييم أداء الإجابة على الأسئلة عبر اللغات. تتكون مجموعة البيانات من مجموعة فرعية مكونة من 240 مقطعًا و1190 زوجًا من الأسئلة والأجوبة من مجموعة تطوير SQuAD v1.1 (Rajpurkar et al.، 2016).

إدخال مجموعة البيانات أعلاه بنقرة واحدة

لا تزال مجموعات البيانات الغنية تتطلب دعم منصات الحوسبة عالية الجودة. حاليًا، تدعم منصة الحوسبة البايزية OpenBayes بالفعل ربط مجموعات البيانات بنقرة واحدة.فقط اكتب مفتاحًا واحدًا أثناء إنشاء الحاوية.يمكن ربط مجموعة البيانات المستهدفة بالحاوية المقابلة، مما يلغي عملية التنزيل والتحميل المملة ولا يشغل مساحة التخزين الشخصية للمستخدم.

مرجع فيديو تعليمي:

[البرنامج التعليمي الرسمي لـ OpenBayes] التعاون التنظيمي

للحصول على توثيق مفصل، راجع:https://1lh.cc/v2ao4q

أيضًا،وتوفر منصة OpenBayes أيضًا أكثر من 500 مجموعة بيانات عامة مختارة ونماذج ودروس تعليمية وموارد أخرى عالية الجودة.وتم دمجه في وحدة "الموارد العامة".

الآن جرب الربط السريع، يرجى الزيارة

https://openbayes.com/console/login