التاريخ

منذ عام واحد

الحجم

47.22 GB

المؤسسة

عنوان URL للنشر

رابط الورقة البحثية

الوسوم

معالجة اللغة الطبيعية

الاستدلال

تدريب النموذج

AM-DeepSeek-R1-Distilled-1.4M هي مجموعة بيانات واسعة النطاق لمهام الاستدلال العام، أصدرها فريق am في مارس 2025. نتائج الورقة البحثية ذات الصلة هي "1.4 مليون مجموعة بيانات استدلالية مفتوحة المصدر لتمكين تدريب نماذج اللغة الكبيرة". تحتوي مجموعة البيانات على ما يقرب من 1.4 مليون إدخال بيانات، تغطي مجموعة متنوعة من أنواع الأسئلة بما في ذلك الرياضيات والترميز والأسئلة والأجوبة العلمية والدردشة العامة. لقد تم اختيار هذه البيانات بعناية، وتم إزالة التكرارات الدلالية منها وتنظيفها بدقة لضمان الجودة العالية والتحدي الذي تتمتع به البيانات. يحتوي كل إدخال في مجموعة البيانات على مسارات تفكير غنية، والتي لا تزود النموذج بأمثلة لعملية التفكير فحسب، بل تساعد النموذج أيضًا على فهم مهام التفكير المعقدة وتوليد حلول لها بشكل أفضل. يهدف إصدار مجموعة البيانات AM-DeepSeek-R1-Distilled-1.4M إلى توفير أداة قوية لمعالجة اللغة الطبيعية ومهام الاستدلال، وخاصة لتدريب وتحسين قدرات الاستدلال للنماذج اللغوية الكبيرة. ويمكن أن يساعد النماذج على تحسين أدائها في مجالات رئيسية مثل الرياضيات والترميز والإجابة على الأسئلة العلمية، حتى تتمكن من التعامل بشكل أفضل مع مهام التفكير المعقدة المختلفة.

الاستشهاد

إذا وجدت عملنا مفيدًا لبحثك، فيرجى منحنا نجمة 👍 وذكر عملنا 👍 "BibTeX" @misc{tian2025correctanswersequaldistillation, العنوان: {ليست كل الإجابات الصحيحة متساوية: لماذا يُعد مصدر التقطير مهمًا} المؤلف={Xiaoyu Tian وYunjie Ji وHaotian Wang وShuaiting Chen وSitong Zhao وYiping Peng وHan Zhao وXiangang Li}، year={2025}, eprint={2505.14464}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14464}, } @misc{ji2025amthinkingv1advancingfrontierreasoning, العنوان={AM-Thinking-v1: تطوير حدود التفكير على نطاق 32 مليار}, المؤلف={Yunjie Ji وXiaoyu Tian وSitong Zhao وHaotian Wang وShuaiting Chen وYiping Peng وHan Zhao وXiangang Li}، year={2025}, eprint={2505.08311}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.08311}, } @misc{tian2025exploringpotentialofflinerl, العنوان: {استكشاف إمكانات التعلم المعزز غير المتصل بالإنترنت للاستدلال في نماذج التعلم المعزز: دراسة أولية} المؤلف={Xiaoyu Tian وSitong Zhao وHaotian Wang وShuaiting Chen وYiping Peng وYunjie Ji وHan Zhao وXiangang Li}، year={2025}, eprint={2505.02142}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.02142}, } @misc{tian2025deepdistillenhancingllmreasoning, العنوان={DeepDistill: تعزيز قدرات الاستدلال في نماذج التعلم الخطي من خلال تدريب البيانات المتدرجة الصعوبة على نطاق واسع}, المؤلف={Xiaoyu Tian وSitong Zhao وHaotian Wang وShuaiting Chen وYiping Peng وYunjie Ji وHan Zhao وXiangang Li}، year={2025}, eprint={2504.17565}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17565}, } @misc{wang2025leveragingreasoningmodelanswers, العنوان: {الاستفادة من إجابات نموذج الاستدلال لتعزيز قدرة النموذج غير الاستدلالي} المؤلف={هاوتيان وانغ وهان تشاو وشوايتينغ تشين وشياويو تيان وسيتونغ تشاو ويونجي جي وييبينغ بينغ وشيانغانغ لي}، year={2025}, eprint={2504.09639}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.09639}, } @misc{ji2025difficultyawarestagedreinforcementlearning, title={كيف يعزز التعلم المعزز المرحلي الواعي بالصعوبة قدرات التفكير لدى نماذج التعلم المعزز: دراسة تجريبية أولية}, المؤلف={Yunjie Ji وSitong Zhao وXiayu Tian وHaotian Wang وShuaiting Chen وYiping Peng وHan Zhao وXiangang Li}، year={2025}, eprint={2504.00829}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.00829}, } @misc{tian2025thinktwiceenhancingllm, العنوان: {فكّر مرتين: تحسين التفكير المنطقي في اختبار LLM من خلال توسيع نطاق التفكير متعدد الجولات في وقت الاختبار} المؤلف={Xiaoyu Tian وSitong Zhao وHaotian Wang وShuaiting Chen وYunjie Ji وYiping Peng وHan Zhao وXiangang Li}، year={2025}, eprint={2503.19855}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.19855}, } @misc{zhao202514millionopensourcedistilled, title={مجموعة بيانات استدلالية مُقطّرة مفتوحة المصدر تضم 1.4 مليون عنصر لتمكين تدريب نماذج اللغة الكبيرة}, المؤلف={هان تشاو وهاوتيان وانغ وييبينغ بينغ وسيتونغ تشاو وشياويو تيان وشوايتينغ تشين ويونجي جي وشيانغانغ لي}، year={2025}, eprint={2503.19633}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.19633}, } “`

AM-DeepSeek-R1-Distilled-1.4M.torrent

البذر 1جارٍ التنزيل 0مكتمل 122إجمالي التنزيلات 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

منذ يوم واحد

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

منذ يوم واحد

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

منذ يوم واحد

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

منذ يوم واحد

مجموعة بيانات GPT-5.4-step-by-step-reasoning

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ عام واحد

الحجم

47.22 GB

المؤسسة

عنوان URL للنشر

رابط الورقة البحثية

الوسوم

معالجة اللغة الطبيعية

الاستدلال

تدريب النموذج

الاستشهاد

AM-DeepSeek-R1-Distilled-1.4M.torrent

البذر 1جارٍ التنزيل 0مكتمل 122إجمالي التنزيلات 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات مهمة الاستدلال العام واسعة النطاق AM-DeepSeek-R1-Distilled-1.4M

الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات مهمة الاستدلال العام واسعة النطاق AM-DeepSeek-R1-Distilled-1.4M

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

استعلام عن نطاقات حرفية، شرط الاستعلام، استخراج الأدلة، مجموعة البيانات

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات قاعدة المعرفة المستهدفة للكيميرا TACK

مجموعة بيانات EAVSD لقصص الفيديو الإعلانية للتجارة الإلكترونية

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

مجموعة بيانات الاستدلال البصري VisCoR-55K

مجموعة بيانات مسار تفاعل الوكلاء الأذكياء من AgentTrove

مجموعة بيانات MathNet متعددة الوسائط للاستدلال الرياضي المعياري

مجموعة بيانات تصنيف أمراض قاع العين

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

مجموعة بيانات GPT-5.4-step-by-step-reasoning

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات مهمة الاستدلال العام واسعة النطاق AM-DeepSeek-R1-Distilled-1.4M

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

استعلام عن نطاقات حرفية، شرط الاستعلام، استخراج الأدلة، مجموعة البيانات

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات قاعدة المعرفة المستهدفة للكيميرا TACK

مجموعة بيانات EAVSD لقصص الفيديو الإعلانية للتجارة الإلكترونية

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

مجموعة بيانات الاستدلال البصري VisCoR-55K

مجموعة بيانات مسار تفاعل الوكلاء الأذكياء من AgentTrove

مجموعة بيانات MathNet متعددة الوسائط للاستدلال الرياضي المعياري

مجموعة بيانات تصنيف أمراض قاع العين

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

مجموعة بيانات GPT-5.4-step-by-step-reasoning

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

استعلام عن نطاقات حرفية، شرط الاستعلام، استخراج الأدلة، مجموعة البيانات

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات قاعدة المعرفة المستهدفة للكيميرا TACK

مجموعة بيانات EAVSD لقصص الفيديو الإعلانية للتجارة الإلكترونية

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

مجموعة بيانات الاستدلال البصري VisCoR-55K

مجموعة بيانات مسار تفاعل الوكلاء الأذكياء من AgentTrove

مجموعة بيانات MathNet متعددة الوسائط للاستدلال الرياضي المعياري

مجموعة بيانات تصنيف أمراض قاع العين

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

مجموعة بيانات GPT-5.4-step-by-step-reasoning

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL