HyperAI

مجموعة بيانات محاذاة عالية الجودة مُفلترة بواسطة Magpie-Pro-300K

التاريخ

منذ 10 أشهر

الحجم

469.91 MB

المؤسسة

معهد ألين للذكاء الاصطناعي
جامعة واشنطن

رابط النشر

huggingface.co

特色图像

مجموعة البيانات Magpie-Pro-300K-Filtered عبارة عن مجموعة بيانات تعليمات عالية الجودة تم تصنيعها باستخدام طريقة Magpie، والتي تم استخراجها من Llama-3 70B. تحتوي مجموعة البيانات هذه على حوالي 300 ألف محادثة عالية الجودة، تم إنشاؤها من خلال عملية تجميع ذاتي آلية تستغل خصائص الانحدار التلقائي لـ LLMs المتوافقة لتوليد استعلامات المستخدم والردود المقابلة.

تم توفير مجموعة البيانات هذه بواسطة Llama 3 70B Instruct يستخدم العقعق يولد. انظر أيضاورقوقاعدة الكودلمزيد من التفاصيل.

هذه هي البيانات المفلترة. يرجى عدم استخدام كل من Magpie-Pro-300K-Filtered وMagpie-Pro-MT-300K لضبط النموذج، حيث أنهما متماثلان تقريبًا في الجولة الأولى.

خلفية مجموعة البيانات

مشروع Magpie-align هو طريقة تجميع ذاتي لتجميع بيانات التعليمات عالية الجودة مباشرة من نماذج اللغة الكبيرة (LLMs) نفسها، والتي تسمى Magpie. الفكرة الرئيسية لهذا المشروع هي الاستفادة من خصائص الانحدار التلقائي لـ LLMs المتوافقة (مثل Llama-3-Instruct) لتوليد استعلامات المستخدم عن طريق إدخال قوالب الاستعلام المسبق فقط. باستخدام هذا النهج، يتمكن Magpie من إنشاء ملايين التعليمات واستجاباتها المقابلة، واختيار حالات عالية الجودة منها لتشكيل مجموعة بيانات.

Magpie-Pro-300K-Filtered.torrent
البذر 2التنزيل 1مكتمل 58إجمالي التنزيلات 70
  • Magpie-Pro-300K-Filtered/
    • README.md
      1.91 KB
    • README.txt
      3.83 KB
      • data/
        • Magpie-Pro-300K-Filtered.zip
          469.91 MB