مجموعة بيانات توليف القصص القصيرة TinyStories
هذه المجموعة من البيانات عبارة عن مجموعة بيانات مركبة من القصص القصيرة التي تم إنشاؤها بواسطة GPT-3.5 وGPT-4، والمفردات الواردة فيها تقتصر على نطاق فهم الأطفال الذين تتراوح أعمارهم بين 3 إلى 4 سنوات. تم تصميمه لتدريب وتقييم نماذج اللغة الصغيرة (LMs)، وعلى الرغم من صغر حجمه (أقل من 5 ملايين معلمة) أو امتلاكه لبنية أبسط (كتلة محول واحدة فقط)، فإن النماذج المدربة على مجموعة البيانات هذه قادرة على إنتاج قصص قصيرة سلسة ومتسقة ومتنوعة ونحوية تقريبًا.
تم اقتراح مجموعة بيانات TinyStories بواسطة Microsoft Research في عام 2023، والورقة ذات الصلة هي "قصص صغيرة: إلى أي مدى يمكن أن تكون نماذج اللغة صغيرة وتظل قادرة على التحدث باللغة الإنجليزية المتماسكة؟"
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.