HyperAI

مجموعة بيانات ضبط التعليمات الصينية عالية الجودة COIG-CQIA

التاريخ

منذ عام واحد

الحجم

88.8 MB

المؤسسة

صفر واحد كل شيء

رابط النشر

huggingface.co

特色图像

COIG-CQIA تعني أخصائي التعليم المفتوح الصيني العام - الجودة هي كل ما تحتاجه. إنها مجموعة بيانات مفتوحة المصدر لضبط التعليمات عالية الجودة.يهدف إلى تزويد مجتمع البرمجة اللغوية العصبية الصيني ببيانات ضبط التعليمات عالية الجودة والتي تتوافق مع سلوك التفاعل البشري. يستخدم COIG-CQIA الأسئلة والأجوبة والمقالات التي تم الحصول عليها من الإنترنت الصيني كبيانات خام، ويتم بناؤه بعد التنظيف العميق وإعادة البناء والمراجعة اليدوية.

هذا المشروع مستوحى من دراسات مثل LIMA: الأقل هو الأكثر من أجل التوافق. باستخدام كمية صغيرة من البيانات عالية الجودة، يمكن لنموذج لغوي كبير أن يتعلم سلوكيات التفاعل البشري. لذلك، في بناء البيانات، يتم إيلاء اهتمام كبير لمصدر البيانات وجودتها وتنوعها. لمعرفة تفاصيل مجموعة البيانات، يرجى الاطلاع على مقدمة البيانات وورقة فريق البحث.

جمع البيانات

  • قام فريق البحث بجمع كمية كبيرة من البيانات النصية المكتوبة يدويًا من مصادر متعددة على الإنترنت الصيني لضمان تنوع البيانات وثرائها.
  • وتشمل مصادر البيانات ليس فقط مجتمعات الأسئلة والأجوبة (مثل Zhihu وSifou وDouban وXiaohongshu وChiba)، ولكن أيضًا منصات المعرفة الشبيهة بالويكي (مثل موسوعة Baidu)، وأنواع مختلفة من مواد الامتحان (مثل أسئلة امتحان القبول في المدارس المتوسطة والثانوية، وأسئلة امتحان التأهيل المهني)، ومجموعات بيانات البرمجة اللغوية العصبية الموجودة.
  • عند جمع البيانات، نركز على اختيار البيانات ذات الصلة التي يمكن أن تعكس أنماط التفاعل الحقيقية للمستخدمين الصينيين لتعزيز فهم النموذج لاستخدام اللغة في العالم الحقيقي.

COIG-CQIA.torrent
البذر 2التنزيل 1مكتمل 198إجمالي التنزيلات 393
  • COIG-CQIA/
    • README.md
      1.4 KB
    • README.txt
      2.81 KB
      • data/
        • coig.zip
          88.8 MB