مجموعة بيانات توليف القصص القصيرة TinyStories
التاريخ
منذ 10 أشهر
الحجم
4.21 GB
رابط النشر
الفئات
* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.
هذه المجموعة من البيانات عبارة عن مجموعة بيانات مركبة من القصص القصيرة التي تم إنشاؤها بواسطة GPT-3.5 وGPT-4، والمفردات الواردة فيها تقتصر على نطاق فهم الأطفال الذين تتراوح أعمارهم بين 3 إلى 4 سنوات. تم تصميمه لتدريب وتقييم نماذج اللغة الصغيرة (LMs)، وعلى الرغم من صغر حجمه (أقل من 5 ملايين معلمة) أو امتلاكه لبنية أبسط (كتلة محول واحدة فقط)، فإن النماذج المدربة على مجموعة البيانات هذه قادرة على إنتاج قصص قصيرة سلسة ومتسقة ومتنوعة ونحوية تقريبًا.
تم اقتراح مجموعة بيانات TinyStories بواسطة Microsoft Research في عام 2023، والورقة ذات الصلة هي "قصص صغيرة: إلى أي مدى يمكن أن تكون نماذج اللغة صغيرة وتظل قادرة على التحدث باللغة الإنجليزية المتماسكة؟"
TinyStories.torrent
البذر 1التنزيل 1مكتمل 74إجمالي التنزيلات 211