HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات صينية شاملة واسعة النطاق SkyPile-150B

التاريخ

منذ 2 أعوام

المؤسسة

العلامات

انضم إلى مجتمع Discord

SkyPile-150B عبارة عن مجموعة بيانات صينية شاملة واسعة النطاق مصممة خصيصًا للتدريب المسبق للنماذج اللغوية الكبيرة.يتم الحصول عليها من عدد كبير من صفحات الإنترنت الصينية المتاحة للعامة. تم ضمان جودة مجموعة البيانات باستخدام التصفية الدقيقة، وإزالة التكرارات على نطاق واسع، والتصفية الشاملة للبيانات الحساسة. بالإضافة إلى ذلك، استخدم الباحثون أيضًا أدوات متقدمة مثل fastText وBERT لتصفية البيانات ذات الجودة المنخفضة.

يحتوي الجزء العام من مجموعة بيانات SkyPile-150B على ما يقرب من 233 مليون صفحة ويب، تحتوي كل منها على أكثر من 1000 حرف صيني في المتوسط. تحتوي مجموعة البيانات على حوالي 150 مليار رمز و620 جيجابايت من بيانات النص العادي في المجموع.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp