HyperAIHyperAI

مجموعة بيانات توليف القصص القصيرة TinyStories

التاريخ

منذ عام واحد

الحجم

4.21 GB

المؤسسة

أبحاث مايكروسوفت

رابط النشر

huggingface.co

رابط الورقة البحثية

arxiv.org

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

هذه المجموعة من البيانات عبارة عن مجموعة بيانات مركبة من القصص القصيرة التي تم إنشاؤها بواسطة GPT-3.5 وGPT-4، والمفردات الواردة فيها تقتصر على نطاق فهم الأطفال الذين تتراوح أعمارهم بين 3 إلى 4 سنوات. تم تصميمه لتدريب وتقييم نماذج اللغة الصغيرة (LMs)، وعلى الرغم من صغر حجمه (أقل من 5 ملايين معلمة) أو امتلاكه لبنية أبسط (كتلة محول واحدة فقط)، فإن النماذج المدربة على مجموعة البيانات هذه قادرة على إنتاج قصص قصيرة سلسة ومتسقة ومتنوعة ونحوية تقريبًا.

تم اقتراح مجموعة بيانات TinyStories بواسطة Microsoft Research في عام 2023، والورقة ذات الصلة هي "قصص صغيرة: إلى أي مدى يمكن أن تكون نماذج اللغة صغيرة وتظل قادرة على التحدث باللغة الإنجليزية المتماسكة؟"

قصص صغيرة.torrent
البذر 2التنزيل 0مكتمل 156إجمالي التنزيلات 333
  • TinyStories/
    • README.md
      1.36 KB
    • README.txt
      2.72 KB
      • data/
        • TinyStories.zip
          4.21 GB
مجموعة بيانات توليف القصص القصيرة TinyStories | مجموعات البيانات | HyperAI