مجموعة بيانات ضبط التعليمات الصينية عالية الجودة COIG-CQIA
التاريخ
الحجم
رابط النشر
الفئات

COIG-CQIA تعني أخصائي التعليم المفتوح الصيني العام - الجودة هي كل ما تحتاجه. إنها مجموعة بيانات مفتوحة المصدر لضبط التعليمات عالية الجودة.يهدف إلى تزويد مجتمع البرمجة اللغوية العصبية الصيني ببيانات ضبط التعليمات عالية الجودة والتي تتوافق مع سلوك التفاعل البشري. يستخدم COIG-CQIA الأسئلة والأجوبة والمقالات التي تم الحصول عليها من الإنترنت الصيني كبيانات خام، ويتم بناؤه بعد التنظيف العميق وإعادة البناء والمراجعة اليدوية.
هذا المشروع مستوحى من دراسات مثل LIMA: الأقل هو الأكثر من أجل التوافق. باستخدام كمية صغيرة من البيانات عالية الجودة، يمكن لنموذج لغوي كبير أن يتعلم سلوكيات التفاعل البشري. لذلك، في بناء البيانات، يتم إيلاء اهتمام كبير لمصدر البيانات وجودتها وتنوعها. لمعرفة تفاصيل مجموعة البيانات، يرجى الاطلاع على مقدمة البيانات وورقة فريق البحث.
جمع البيانات
- قام فريق البحث بجمع كمية كبيرة من البيانات النصية المكتوبة يدويًا من مصادر متعددة على الإنترنت الصيني لضمان تنوع البيانات وثرائها.
- وتشمل مصادر البيانات ليس فقط مجتمعات الأسئلة والأجوبة (مثل Zhihu وSifou وDouban وXiaohongshu وChiba)، ولكن أيضًا منصات المعرفة الشبيهة بالويكي (مثل موسوعة Baidu)، وأنواع مختلفة من مواد الامتحان (مثل أسئلة امتحان القبول في المدارس المتوسطة والثانوية، وأسئلة امتحان التأهيل المهني)، ومجموعات بيانات البرمجة اللغوية العصبية الموجودة.
- عند جمع البيانات، نركز على اختيار البيانات ذات الصلة التي يمكن أن تعكس أنماط التفاعل الحقيقية للمستخدمين الصينيين لتعزيز فهم النموذج لاستخدام اللغة في العالم الحقيقي.