مجموعة بيانات ShareGPT 90 ألفًا للإجابة على الأسئلة البشرية والآلية ثنائية اللغة باللغتين الصينية والإنجليزية
التاريخ
منذ عام واحد
الحجم
730.58 MB
رابط النشر
العلامات
ShareGPT-Chinese-English-90k عبارة عن مجموعة بيانات عالية الجودة للإجابة على أسئلة الإنسان والآلة باللغتين الصينية والإنجليزية بالتوازي، وتغطي أسئلة المستخدم في السيناريوهات الحقيقية والمعقدة. يمكن استخدامه لتدريب نماذج المحادثة عالية الجودة (والتي تكون أكثر قوة في توزيع التعليمات من البيانات التي يتم إنشاؤها عن طريق استدعاء واجهات API بشكل متكرر لمحاكاة الأسئلة والأجوبة التي تم إنشاؤها بواسطة الآلة).
خصائص هذه المجموعة من البيانات هي:
- وفي الوقت نفسه، فإنه يوفر مجموعات مقارنة متوازية باللغتين الصينية والإنجليزية بنفس المعنى تمامًا، والتي يمكن استخدامها لتدريب نموذج الحوار ثنائي اللغة.
- ليست كل الأسئلة عبارة عن بيانات وهمية أو متخيلة بشكل مصطنع تم إنشاؤها بواسطة استطلاعات واجهة برمجة التطبيقات (مثل Moss)، وهو ما يتوافق أكثر مع توزيع الأوامر وتعبير الأسئلة في سيناريوهات المستخدم الحقيقية.
- يتم جمع مجموعة بيانات Sharegpt من خلال المشاركة التلقائية من قبل مستخدمي الإنترنت، وهو ما يعادل التصفية الطبيعية للغاية (من خلال الحس البشري)، مما يؤدي إلى استبعاد معظم المحادثات التي تنطوي على تجارب سيئة.
ShareGPT-Chinese-English-90k.torrent
البذر 1التنزيل 1مكتمل 186إجمالي التنزيلات 525