HyperAI

Persona Hub: مجموعة بيانات مكونة من مليار شخصية مختلفة يتم تنظيمها تلقائيًا من بيانات الويب

التاريخ

منذ عام واحد

الحجم

56.03 MB

المؤسسة

مختبر تينسنت للذكاء الاصطناعي

رابط النشر

huggingface.co

特色图像

مقدمة مجموعة البيانات

مجموعة البيانات عبارة عن مجموعة من مليار حرف مختلف تم تنظيمها تلقائيًا من بيانات الشبكة التي أطلقها مختبر الذكاء الاصطناعي Tencent Seattle في عام 2024. تعمل هذه المليار حرف (حوالي 13% من إجمالي سكان العالم) كحامل موزع للمعرفة العالمية ويمكنها الاستفادة من جميع وجهات النظر تقريبًا المضمنة في LLM، مما يسهل إنشاء بيانات اصطناعية متنوعة على نطاق واسع لسيناريوهات مختلفة. من خلال إظهار حالات استخدام PERSONA HUB في التوليف واسع النطاق لمشاكل التفكير الرياضي والمنطقي عالية الجودة، والتعليمات (أي مطالبات المستخدم)، والنصوص الغنية بالمعرفة، وشخصيات اللعبة غير القابلة للعب، والأدوات (الوظائف)، أثبت فريق البحث أن توليف البيانات الذي يعتمد على الشخصية متعدد الاستخدامات وقابل للتطوير ومرن وسهل الاستخدام، مع القدرة على دفع تحول نموذجي في إنشاء البيانات الاصطناعية والتطبيق العملي، مما قد يكون له تأثير عميق على البحث والتطوير في مجال LLM.

الورقة ذات الصلة هيتوسيع نطاق إنشاء البيانات الاصطناعية مع 1,000,000,000 شخصية"

خلفية مجموعة البيانات

يقدم مختبر Tencent Seattle AI نهجًا جديدًا لتركيب البيانات يعتمد على الشخصيات ويستفيد من وجهات نظر متعددة في نموذج لغوي كبير (LLM) لإنشاء بيانات تركيبية متنوعة. توصل الباحثون إلى نظام يسمى Persona Hub والذي يقوم تلقائيًا بجمع حوالي مليار شخصية مختلفة (حوالي 13% من إجمالي سكان العالم) من البيانات عبر الإنترنت. تتمكن هذه الشخصيات، باعتبارها حاملات موزعة للمعرفة العالمية، من لمس جميع وجهات النظر المضمنة في LLM تقريبًا، مما يسهل إنشاء بيانات تركيبية متنوعة لسيناريوهات مختلفة على نطاق واسع. يناقش هذا التقرير الفني أيضًا التأثيرات الأوسع والقضايا الأخلاقية التي قد تنشأ عن استخدام Persona Hub، مثل أمن البيانات، والتهديدات للموقف الرائد لبرامج الماجستير في القانون الحالية، وإمكانية محاكاة المجتمع الحقيقي في عالم افتراضي.

PersonaHub.torrent
البذر 2التنزيل 0مكتمل 105إجمالي التنزيلات 124
  • PersonaHub/
    • README.md
      2.42 KB
    • README.txt
      4.83 KB
      • data/
        • personahub.zip
          56.03 MB