HyperAI

مجموعة بيانات محاذاة السياق الطويل LongAlign 10K ذات النموذج الكبير

التاريخ

منذ عام واحد

الحجم

392.42 MB

المؤسسة

جامعة تسينغهوا

رابط النشر

huggingface.co

العلامات

LongAlign-10k هي مجموعة بيانات اقترحتها جامعة تسينغهوا لمعالجة التحديات التي تواجهها النماذج الكبيرة في مهام المحاذاة ذات السياق الطويل. يحتوي على 10000 من بيانات التعليمات الطويلة بطول يتراوح بين 8 كيلو بايت و64 كيلو بايت.

أثناء عملية البناء، تستمد مجموعة البيانات أولاً المواد من تسعة مجالات مختلفة، بما في ذلك الكتب والموسوعات والأوراق الأكاديمية والرموز وما إلى ذلك، ثم تستخدم نموذج Claude 2.1 الكبير لتوليد مهام وإجابات متنوعة على خلفية طويلة. تم تصميم مجموعة البيانات هذه لتقييم أداء النماذج الكبيرة في السياقات الطويلة وقدرتها على اتباع تعليمات المهام التي يبلغ طولها من 10 آلاف إلى 100 ألف.

LongAlign.torrent
البذر 2التنزيل 2مكتمل 157إجمالي التنزيلات 273
  • LongAlign/
    • README.md
      1.28 KB
    • README.txt
      2.57 KB
      • data/
        • LongAlign-10k.zip
          392.42 MB