مجموعة بيانات الإجابة على أسئلة الرموز التعبيرية DPO-zh-en-emoji
التاريخ
الحجم
رابط النشر
العلامات
* هذه المجموعة من البيانات متاحة عبر الإنترنت.انقر هنا للقفز.
مقدمة مجموعة البيانات
مجموعة بيانات DPO-zh-en-emoji هي مجموعة بيانات مصممة خصيصًا لضبط نماذج اللغة الكبيرة التي أطلقتها شركة shareAI في عام 2024، حيث يرمز "DPO" إلى تحسين التفضيلات المباشرة. تحتوي مجموعة البيانات هذه على عدد كبير من أزواج الأسئلة والأجوبة. يحتوي كل سؤال على نسختين من الإجابة، باللغتين الصينية والإنجليزية. وتتضمن الإجابات أيضًا عناصر ممتعة ومرحة، بما في ذلك استخدام الرموز التعبيرية. قام فريق البحث باختيار بعض الأسئلة بعناية من Zhihu والتفكير المنطقي ومنتدى المتخلفين عقليًا كاستعلامات، واستخدم نموذج التعليمات llama3 70b لعينة وإنشاء نسخة صينية من الإجابة ونسخة إنجليزية من الإجابة لكل استعلام. يساعد هذا التصميم على تنشيط تفضيلات نمط اللغة لنموذج الدردشة متعدد اللغات وتحسين جودة المحتوى الذي يولده النموذج وتوافقه مع التفضيلات البشرية.