Command Palette
Search for a command to run...
مجموعة بيانات محاذاة السياق الطويل LongAlign 10K ذات النموذج الكبير
LongAlign-10k هي مجموعة بيانات اقترحتها جامعة تسينغهوا لمعالجة التحديات التي تواجهها النماذج الكبيرة في مهام المحاذاة ذات السياق الطويل. يحتوي على 10000 من بيانات التعليمات الطويلة بطول يتراوح بين 8 كيلو بايت و64 كيلو بايت.
أثناء عملية البناء، تستمد مجموعة البيانات أولاً المواد من تسعة مجالات مختلفة، بما في ذلك الكتب والموسوعات والأوراق الأكاديمية والرموز وما إلى ذلك، ثم تستخدم نموذج Claude 2.1 الكبير لتوليد مهام وإجابات متنوعة على خلفية طويلة. تم تصميم مجموعة البيانات هذه لتقييم أداء النماذج الكبيرة في السياقات الطويلة وقدرتها على اتباع تعليمات المهام التي يبلغ طولها من 10 آلاف إلى 100 ألف.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.