HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات محاذاة عالية الجودة مُفلترة بواسطة Magpie-Pro-300K

التاريخ

منذ عام واحد

الحجم

469.91 MB

المؤسسة

معهد ألين للذكاء الاصطناعي
جامعة واشنطن

رابط الورقة البحثية

arxiv.org

Featured Image

مجموعة البيانات Magpie-Pro-300K-Filtered عبارة عن مجموعة بيانات تعليمات عالية الجودة تم تصنيعها باستخدام طريقة Magpie، والتي تم استخراجها من Llama-3 70B. تحتوي مجموعة البيانات هذه على حوالي 300 ألف محادثة عالية الجودة، تم إنشاؤها من خلال عملية تجميع ذاتي آلية تستغل خصائص الانحدار التلقائي لـ LLMs المتوافقة لتوليد استعلامات المستخدم والردود المقابلة.

تم توفير مجموعة البيانات هذه بواسطة Llama 3 70B Instruct يستخدم العقعق يولد. انظر أيضاورقوقاعدة الكودلمزيد من التفاصيل.

هذه هي البيانات المفلترة. يرجى عدم استخدام كل من Magpie-Pro-300K-Filtered وMagpie-Pro-MT-300K لضبط النموذج، حيث أنهما متماثلان تقريبًا في الجولة الأولى.

خلفية مجموعة البيانات

مشروع Magpie-align هو طريقة تجميع ذاتي لتجميع بيانات التعليمات عالية الجودة مباشرة من نماذج اللغة الكبيرة (LLMs) نفسها، والتي تسمى Magpie. الفكرة الرئيسية لهذا المشروع هي الاستفادة من خصائص الانحدار التلقائي لـ LLMs المتوافقة (مثل Llama-3-Instruct) لتوليد استعلامات المستخدم عن طريق إدخال قوالب الاستعلام المسبق فقط. باستخدام هذا النهج، يتمكن Magpie من إنشاء ملايين التعليمات واستجاباتها المقابلة، واختيار حالات عالية الجودة منها لتشكيل مجموعة بيانات.

Magpie-Pro-300K-Filtered.torrent
البذر 1التنزيل 0مكتمل 151إجمالي التنزيلات 213
  • Magpie-Pro-300K-Filtered/
    • README.md
      1.91 KB
    • README.txt
      3.83 KB
      • data/
        • Magpie-Pro-300K-Filtered.zip
          469.91 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp