مجموعة الإنترنت الصينية CCI
مع التطور السريع لنماذج اللغة الكبيرة، يستمر الطلب على مجموعات البيانات عالية الجودة في النمو في الصناعة والأوساط الأكاديمية. لا تحتاج مجموعات البيانات هذه إلى احتواء كميات هائلة من المعلومات فحسب، بل تحتاج أيضًا إلى فحصها وتنظيفها بدقة لضمان دقتها وأمان النماذج والتطبيقات اللاحقة. ومع ذلك، فإن مجموعات البيانات العامة التي تحظى بشعبية كبيرة في الصناعة حاليًا تنطوي على مخاطر معينة تتعلق بالجودة والأمن، وخاصة في المجال الصيني حيث تعد مجموعات البيانات عالية الجودة نادرة بشكل خاص. علاوة على ذلك، هناك العديد من التحديات في بناء مجموعة بيانات صينية آمنة. لذلك، فإن إنشاء مجموعة بيانات خاضعة لفحص دقيق وموحدة أمر مهم بشكل خاص من أجل ابتكار وتطوير برامج الماجستير في القانون.
شبكة الإنترنت للشركات الصينية (CCI)يتكون من مصادر عالية الجودة وموثوقة من مواقع الإنترنت في البر الرئيسي للصين. تخضع CCI لعملية تنظيف صارمة للبيانات وإزالة التكرارات، وتجري اختبارات وتصفية مستهدفة لجودة المحتوى. تتضمن قواعد معالجة البيانات ما يلي:
- التصفية القائمة على القواعد: الاستخراج القائم على الكثافة، وتصفية الكلمات الرئيسية، وتصفية البريد العشوائي، والتحويل إلى اللغة الصينية المبسطة والتقليدية، وما إلى ذلك.
- التصفية القائمة على النموذج: تصفية المحتوى منخفض الجودة من خلال تدريب نماذج التصنيف؛
- إزالة التكرار: إزالة تكرار البيانات داخل مجموعات البيانات وبينها.
بالإضافة إلى ذلك، من أجل معالجة المشكلة المتمثلة في أن النطاق الكبير لبيانات ما قبل التدريب يمكن أن يؤدي بسهولة إلى تسرب بيانات التقييم، أجرى فريق البحث فحصًا وتصفية صارمين للعديد من مجموعات بيانات التقييم السائدة في الصين أثناء مرحلة معالجة البيانات.
حجم مجموعة CCI التي تم إصدارها (CCI v1.0.0) هو 104 جيجابايت. وتمتد الفترة الزمنية الإجمالية لمجموعة البيانات من يناير 2001 إلى نوفمبر 2023.