يقول Orpheus TTS وداعًا للشعور الميكانيكي، والمحادثة في الوقت الفعلي طبيعية مثل الأصدقاء؛ OpenCodeReasoning بيانات ضخمة مفتوحة المصدر، تفتح مستوى جديدًا من التفكير البرمجي

لقد حققت نماذج تحويل النص إلى كلام تقدمًا كبيرًا في السنوات الأخيرة، ولكن النماذج الحالية لا تزال تعاني من العديد من القيود في التطبيقات العملية. لا تستطيع معظم النماذج سوى توليد كلام بنبرة صوتية واحدة، وهي غير قادرة على توليد كلام مليء بالعواطف. ولمعالجة هذا التحدي، قامت Canopy Labs بتوفير نموذج تحويل النص إلى كلام Orpheus-TTS مفتوح المصدر.
يمكن لـ Orpheus-TTS توليد كلام طبيعي وعاطفي وقريب من مستوى الإنسان.تتمتع بقدرات استنساخ الصوت بدون أي عينة ويمكنها تقليد أصوات معينة دون تدريب مسبق.يمكن للمستخدمين استخدام العلامات للتحكم في التعبير العاطفي للصوت وتعزيز واقعية الصوت. يتمتع النموذج بزمن انتقال منخفض يصل إلى حوالي 200 مللي ثانية، مما يساعد المستخدمين على تنفيذ التطبيقات في الوقت الفعلي.
في الوقت الحالي،HyperAI أصبح الآن متاحًا عبر الإنترنت"Orpheus TTS: نموذج تحويل النص إلى كلام متعدد اللغات"،تعال وجربها~
الاستخدام عبر الإنترنت:https://go.hyper.ai/FGexv
من 26 مايو إلى 29 مايو، تحديثات الموقع الرسمي لـhyper.ai:
* مجموعات البيانات العامة عالية الجودة: 10
* دروس تعليمية عالية الجودة: 12
* اختيار المقالات المجتمعية: 3 مقالات
* إدخالات الموسوعة الشعبية: 5
* أفضل المؤتمرات مع الموعد النهائي في يونيو: 3
قم بزيارة الموقع الرسمي:هايبر.اي
مجموعات البيانات العامة المختارة
1. مجموعة بيانات معيارية للاستدلال متعدد الوسائط EMMA
ترتكز مجموعة البيانات على مهام التفكير المتعدد الوسائط في مجالات الكيمياء العضوية (42%)، والرياضيات (32%)، والفيزياء (6%)، والبرمجة (20%). ويحتوي على 2788 سؤالاً، منها 1796 عينة تم إنشاؤها حديثًا. ويدعم تقسيم المهام الدقيقة ويهدف إلى تعزيز القدرة على الفهم المشترك للصور والنصوص. تتضمن أنواع مهام البيانات محاكاة التفاعل الكيميائي، والتفكير الرسومي الرياضي، وتتبع المسار الفيزيائي، وتصور البرمجة، وما إلى ذلك.
الاستخدام المباشر:https://go.hyper.ai/HtL1N

2. مجموعة بيانات الكشف عن تعبيرات الوجه بتنسيق YOLO
هذه المجموعة من البيانات هي مجموعة بيانات بتنسيق YOLO للتعرف على المشاعر، وهي مصممة لتدريب وتقييم نماذج الكشف عن الأهداف وتصنيفها. تحتوي مجموعة البيانات على ما يقرب من 70 ألف صورة في المجموع، تغطي 9 فئات من تعبيرات الوجه، مع الأخذ في الاعتبار أنواع المشاعر الأساسية والمعقدة. وهو مناسب لسيناريوهات التطبيق مثل التعرف على المشاعر في الرؤية الحاسوبية، والتفاعل بين الإنسان والحاسوب، وتحليل الصحة العقلية، والمراقبة الذكية.
الاستخدام المباشر:https://go.hyper.ai/K6iIH

3. مجموعة بيانات الاستدلال واسعة النطاق GeneralThought-430K
تحتوي مجموعة البيانات على 430 ألف عينة، تغطي مشاكل في مجالات الرياضيات والبرمجة والفيزياء والكيمياء والعلوم الطبيعية والعلوم الإنسانية والاجتماعية وتكنولوجيا الهندسة، وما إلى ذلك، بما في ذلك الأسئلة من نماذج التفكير المتعددة وإجابات مرجعية ومسارات التفكير والإجابات النهائية وغيرها من البيانات الوصفية.
الاستخدام المباشر:https://go.hyper.ai/xdSzd
4. مجموعة بيانات الاستدلال الرياضي S1k-1.1
هذه المجموعة من البيانات عبارة عن مجموعة بيانات لحل المشكلات الرياضية، وتحتوي على 1000 عينة. يركز هذا الكتاب على المسائل الرياضية ومسارات التفكير، ويغطي مجالات رياضية متعددة مثل الجبر والهندسة والاحتمالات، إلخ. يحتوي كل نموذج على وصف للمشكلة، وخطوات حلها، وإجابات، ومسارات التفكير التي تم إنشاؤها بواسطة DeepSeek r1.
الاستخدام المباشر:https://go.hyper.ai/MtvcV
5. مجموعة بيانات أطلس البروتين البشري HPA
تتكون مجموعة البيانات هذه من بيانات من قاعدة بيانات أطلس البروتين البشري (HPA)، والتي تحتوي على عدد كبير من صور المجهر البؤري عالية الدقة، والتي تغطي التوزيع المكاني لآلاف البروتينات البشرية في العضيات المختلفة. إنه مورد عام مهم لأبحاث توطين البروتين تحت الخلوي. التقييم العادل للنماذج.
الاستخدام المباشر:https://go.hyper.ai/Dhuwt
6. مجموعة بيانات الإجابة على الأسئلة من ZeroSearch
تحتوي مجموعة البيانات على حوالي 170 ألف عينة، تغطي مجالات متعددة مثل المعرفة العلمية والأحداث التاريخية والترفيه السينمائي والتلفزيوني والجغرافي والعلوم الإنسانية. ويغطي أيضًا الأسئلة الواقعية، وأسئلة التعريف، وأسئلة الصواب والخطأ، وما إلى ذلك، وهو مناسب لتدريب نماذج الإجابة على الأسئلة الصغيرة والمتوسطة الحجم. من خلال أزواج الأسئلة والأجوبة المصممة بعناية، يهدف هذا إلى تقييم قدرات التفكير السليم والذاكرة الواقعية والاستدلال المنطقي للنموذج، وتوفير موارد التدريب والاختبار الموحدة لمجال معالجة اللغة الطبيعية.
الاستخدام المباشر:https://go.hyper.ai/OkvBx
7. مجموعة بيانات معيارية للتفكير المنطقي من SocialMaze
تُعد مجموعة البيانات هذه مجموعة بيانات مرجعية للتفكير الاجتماعي تركز على مهام التفكير في الأدوار المخفية في سيناريوهات التفاعل بين العديد من الوكلاء. يهدف إلى تقييم قدرات التفكير المنطقي وكشف الخداع وفهم الحوار متعدد الجولات لنماذج اللغة الكبيرة (LLMs) في البيئات الاجتماعية المعقدة، ويوفر منصة اختبار موحدة لدراسة قدرات التفكير الاجتماعي لنماذج اللغة الكبيرة.
الاستخدام المباشر:https://go.hyper.ai/Cch64
8. مجموعة بيانات استدلال البرمجة OpenCodeReasoning
تهدف مجموعة البيانات هذه إلى توفير بيانات تدريب عالية الجودة على التفكير البرمجي للنماذج اللغوية الكبيرة (LLMs) وتعزيز تحسين قدرات توليد التعليمات البرمجية والتفكير المنطقي. تحتوي مجموعة البيانات على 735,255 عينة، تغطي 28,319 مشكلة برمجة فريدة، وهي واحدة من أكبر مجموعات بيانات البرمجة المنطقية المتوفرة حاليًا.
الاستخدام المباشر:https://go.hyper.ai/ofjBJ
9. مجموعة بيانات استرجاع المستندات متعددة اللغات MLDR
وتغطي مجموعة البيانات 13 لغة مختلفة. إنها مجموعة بيانات استرجاع وثائق طويلة ومتعددة اللغات تم إنشاؤها بناءً على ويكيبيديا ووداو ومجموعة mC4 متعددة اللغات. ويهدف إلى دعم البحث والتطوير في مهام استرجاع النصوص الطويلة عبر اللغات.
الاستخدام المباشر:https://go.hyper.ai/Le0G8
10. مجموعة بيانات معيارية للمواد الذرية MP-20-PXRD
تتكون مجموعة البيانات من المواد المأخوذة من قاعدة بيانات مشروع المواد، مع وجود ما يصل إلى 20 ذرة في الخلية الوحدوية. ويحتوي على 45229 مادة، والتي تستخدم للتدريب والتحقق والاختبار بنسبة 90%، و7.5%، و2.5%.
الاستخدام المباشر:https://go.hyper.ai/bUKbv
دروس تعليمية عامة مختارة
هذا الأسبوع، قمنا بتلخيص 4 فئات من الدروس التعليمية العامة عالية الجودة:
* دروس تركيب الصوت: 5
* دروس إنشاء الصور: 3
* دروس تركيب الفيديو: 2
* دروس التفكير الرياضي: 2
برنامج تعليمي لتوليف الصوت
1. Orpheus TTS: نموذج تحويل النص إلى كلام متعدد اللغات
يمكن لبرنامج Orpheus-TTS توليد كلام طبيعي وعاطفي وقريب من مستوى الإنسان، ولديه قدرات استنساخ صوت بدون عينة، ويمكنه تقليد أصوات معينة دون تدريب مسبق. يمكن للمستخدمين استخدام العلامات للتحكم في التعبير العاطفي للصوت وتعزيز واقعية الصوت. يتمتع Orpheus TTS بزمن انتقال منخفض يبلغ حوالي 200 مللي ثانية، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي.
يستخدم هذا البرنامج التعليمي بطاقة RTX 4090 واحدة كمورد. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب.
تشغيل عبر الإنترنت:https://go.hyper.ai/FGexv

2. ACE-Step: نموذج أساسي لتوليد الموسيقى
يقوم برنامج ACE-Step-v1-3.5B بتوليف ما يصل إلى 4 دقائق من الموسيقى في 20 ثانية فقط على وحدة معالجة الرسوميات A100، أي أسرع بـ 15 مرة من خط الأساس المستند إلى LLM، مع تحقيق تماسك موسيقي متفوق ومحاذاة غنائية من حيث المقاييس اللحنية والتوافقية والإيقاعية. علاوة على ذلك، يحافظ النموذج على التفاصيل الصوتية الدقيقة، مما يتيح آليات تحكم متقدمة مثل استنساخ الصوت، وتحرير الكلمات، وإعادة المزج، وتوليد المسار.
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب.
تشغيل عبر الإنترنت:https://go.hyper.ai/Qjxmu

3. نشر MegaTTS3 بنقرة واحدة
MegaTTS 3 هو نظام تحويل النص إلى كلام (TTS) مزود بخوارزمية محول انتشار كامن موجهة بشكل متناثر (DiT) مبتكرة تحقق جودة كلام تحويل النص إلى كلام (TTS) بدون أي تشويش وتدعم التحكم المرن للغاية في قوة اللهجة. يتم استخدامه بشكل أساسي لتحويل النص المدخل إلى صوت عالي الجودة وطبيعي وسلس.
يستخدم هذا البرنامج التعليمي بطاقة RTX 4090 واحدة. يمكنك نشره بنقرة واحدة باستخدام الرابط أدناه.
تشغيل عبر الإنترنت:https://go.hyper.ai/rujKs

4. برنامج التعرف على الكلام Parakeet-tdt-0.6b-v2
يعتمد برنامج Parakeet-tdt-0.6b-v2 على بنية مشفر FastConformer وفك تشفير TDT، ويمكنه نسخ ما يصل إلى 24 دقيقة من مقاطع الصوت الإنجليزية بكفاءة في المرة الواحدة. يركز هذا النموذج على مهام نسخ الكلام باللغة الإنجليزية عالية الدقة ومنخفضة الكمون وهو مناسب لسيناريوهات تحويل الكلام إلى نص باللغة الإنجليزية في الوقت الفعلي (مثل محادثات خدمة العملاء وسجلات الاجتماعات والمساعدين الصوتيين وما إلى ذلك).
يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، ويدعم النموذج التعرف على الكلام باللغة الإنجليزية فقط.
تشغيل عبر الإنترنت:https://go.hyper.ai/pWmfu

5. Dia-1.6B: عرض توضيحي لتوليف الكلام العاطفي
يعد Dia-1.6B قادرًا على إنشاء محادثات واقعية للغاية مباشرة من نصوص برمجية ويدعم التحكم الصوتي في العواطف والنغمة. ويمكنه أيضًا توليد أصوات التواصل غير اللفظي مثل الضحك والسعال وتطهير الحلق وما إلى ذلك، مما يجعل المحادثة أكثر طبيعية وحيوية. يدعم هذا المشروع أيضًا تحميل عينات الصوت الخاصة بك. سوف يقوم النموذج بإنشاء أصوات مماثلة بناءً على العينات لتحقيق استنساخ بصمة صوتية بدون عينة.
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة ويدعم حاليًا الجيل الإنجليزي فقط.
تشغيل عبر الإنترنت:https://go.hyper.ai/5J3lp

برنامج تعليمي لإنشاء الصور
1. KV-Edit لتحرير صور الخلفية المتناسقة
KV-Edit هي طريقة تحرير صور بدون تدريب تحافظ بشكل صارم على اتساق الخلفية بين الصور الأصلية والمحررة، وتحقق أداءً مثيرًا للإعجاب في مهام التحرير المختلفة بما في ذلك إضافة الكائنات وإزالتها واستبدالها.
يستخدم هذا البرنامج التعليمي بطاقة RTX A6000 واحدة. انقر على الرابط أدناه لاستنساخ النموذج بسرعة.
تشغيل عبر الإنترنت:https://go.hyper.ai/wo2xJ

2. تركيب الصور عالية الدقة من سانا
Sana هو إطار عمل لتحويل النص إلى صورة يمكنه إنشاء صور بدقة تصل إلى 4096 × 4096 بكفاءة. يمكن لبرنامج Sana تجميع صور عالية الدقة والجودة بسرعة كبيرة جدًا، مع إمكانيات قوية لمحاذاة النص والصورة.
يستخدم هذا البرنامج التعليمي نموذج Sana-1600M-1024px للتوضيح، ويستخدم مصدر قوة الحوسبة بطاقة RTX 4090 واحدة.
تشغيل عبر الإنترنت:https://go.hyper.ai/tiP36

3. التحرير في السياق: إنشاء الصور وتحريرها باستخدام الأوامر
In-Context Edit هو إطار عمل فعال لتحرير الصور استنادًا إلى الأوامر. بالمقارنة مع الطرق السابقة، يحتوي ICEdit على 1% فقط من المعلمات القابلة للتدريب (200M) و0.1% من بيانات التدريب (50k)، مما يدل على قدرة تعميم قوية ويمكنه التعامل مع مهام التحرير المختلفة. وبالمقارنة مع النماذج التجارية مثل Gemini وGPT4o، فهو أكثر انفتاحًا على المصدر، وأقل تكلفة، وأسرع، وله أداء أقوى.
يستخدم هذا البرنامج التعليمي بطاقة RTX 4090 واحدة كمورد. إذا كنت تريد تحقيق الـ 9 ثوانٍ المذكورة رسميًا لإنشاء الصور، فستحتاج إلى بطاقة رسوميات ذات تكوين أعلى. في الوقت الحالي، يتم دعم أوصاف النصوص باللغة الإنجليزية فقط.
تشغيل عبر الإنترنت:https://go.hyper.ai/Ytv6C

برنامج تعليمي لإنشاء الفيديو
1. TransPixeler: إنشاء فيديو RGBA من النص
يحتفظ TransPixeler بمزايا نموذج RGB الأصلي ويحقق محاذاة قوية بين قنوات RGB وقنوات ألفا باستخدام بيانات تدريب محدودة، مما يمكنه من إنشاء مقاطع فيديو RGBA متنوعة ومتسقة بشكل فعال، وبالتالي تعزيز إمكانية التأثيرات المرئية وإنشاء المحتوى التفاعلي.
يستخدم هذا البرنامج التعليمي بطاقة RTX A6000 واحدة كمورد، ووصف النص يدعم اللغة الإنجليزية فقط في الوقت الحالي.
تشغيل عبر الإنترنت:https://go.hyper.ai/1OFP9

2. عرض توضيحي لإنشاء فيديو باستخدام FramePack بذاكرة فيديو منخفضة
يستخدم FramePack بنية شبكة عصبية مبتكرة لحل المشكلات بشكل فعال مثل الاستخدام العالي لذاكرة الفيديو والانجراف والنسيان في إنشاء الفيديو التقليدي، ويقلل بشكل كبير من متطلبات الأجهزة.
يستخدم هذا البرنامج التعليمي RTX 4090 كمورد للحوسبة. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب.
تشغيل عبر الإنترنت:https://go.hyper.ai/rYELB

دروس التفكير الرياضي
1. نشر OpenMath-Nemotron-1.5B باستخدام vLLM+Open WebUI
تم إنشاء النموذج عن طريق ضبط Qwen/Qwen2.5-Math-1.5B على مجموعة بيانات OpenMathReasoning. يحقق النموذج نتائج متطورة على معايير رياضية شائعة، وقد تم ترخيصه الآن للاستخدام التجاري.
تستخدم موارد الحوسبة في هذا البرنامج التعليمي بطاقة RTX 4090 واحدة فقط، وتدعم فقط حساب المسائل الرياضية، والإجابات باللغة الإنجليزية.
تشغيل عبر الإنترنت:https://go.hyper.ai/rasEm

2. نشر DeepSeek-Prover-V2-7B باستخدام vLLM+Open WebUI
الميزة الأكثر أهمية في DeepSeek-Prover-V2-7B هي قدرته على الجمع بسلاسة بين التفكير الرياضي غير الرسمي (أي طريقة التفكير المستخدمة عادة من قبل البشر) مع الأدلة الرسمية الصارمة، مما يسمح للنموذج بالتفكير بمرونة مثل البشر وإثبات ذلك بدقة مثل أجهزة الكمبيوتر، وبالتالي تحقيق اندماج متكامل للتفكير الرياضي.
يستخدم هذا البرنامج التعليمي بطاقة RTX A6000 واحدة كمورد. هذا النموذج يدعم فقط مشاكل التفكير الرياضي.
تشغيل عبر الإنترنت:https://go.hyper.ai/JYCI2

مقالات المجتمع
1. نُشر في مجلة Nature الفرعية! اقترحت جامعة هواتشونغ للعلوم والتكنولوجيا نموذجًا لاستراتيجية اندماج الذكاء الاصطناعي لتحقيق التنبؤ الدقيق بمخاطر الوفيات الناجمة عن الصدمة الإنتانية في مراكز متعددة وعبر التخصصات
اقترح فريق بحثي من مستشفى تونغجي وكلية الإدارة الطبية والصحية التابعة لكلية تونغجي الطبية بجامعة هواتشونغ للعلوم والتكنولوجيا بشكل مبتكر نموذج اندماج التصنيف القائم على TOPSIS (TCF) للتنبؤ بخطر الوفاة في غضون 28 يومًا لدى المرضى الذين يعانون من الصدمة الإنتانية في وحدة العناية المركزة. يدمج النموذج 7 نماذج للتعلم الآلي ويتمتع بثبات ودقة عالية في التحقق عبر المهن ومتعدد المراكز.
شاهد التقرير الكامل:https://go.hyper.ai/K42Fp
2. قامت جامعة أكسفورد وغيرها من المؤسسات بالبحث بعمق في البيانات الصحية لـ 7.46 مليون بالغ لتطوير خوارزميات الفحص المبكر، وحققت التنبؤ المبكر بـ 15 نوعًا من السرطان بناءً على مؤشرات الدم
تعاونت فرق بحثية من جامعة كوين ماري في لندن وجامعة أكسفورد لتطوير خوارزميتين جديدتين للتنبؤ بالسرطان تعتمدان على السجلات الصحية الإلكترونية المجهولة لـ 7.46 مليون بالغ في إنجلترا: تدمج الخوارزمية الأساسية العوامل السريرية التقليدية ومتغيرات الأعراض، وتدمج الخوارزمية المتقدمة بشكل أكبر مؤشرات الدم مثل تعداد خلايا الدم الكامل واختبارات وظائف الكبد. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.
شاهد التقرير الكامل:https://go.hyper.ai/12a8Z
3. تم اختياره لـ ICML 2025، اقترحت جامعة تسينغهوا/رينمين/بايت أول إطار عمل موحد لتوليد الجزيئات المتقاطعة UniMoMo لتحقيق تصميم جزيء دواء متعدد الأنواع
اقترح فريق البروفيسور ليو يانغ من جامعة تسينغهوا، بالتعاون مع فريقي جامعة رينمين وبايت دانس، إطار عمل موحد لتوليد الأنواع الجزيئية، UniMoMo. يمثل هذا الإطار بشكل موحد أنواعًا مختلفة من الجزيئات استنادًا إلى الأجزاء الجزيئية، مما يتيح تصميم أنواع مختلفة من جزيئات الارتباط لنفس الهدف. هذه المقالة عبارة عن تفسير مفصل ومشاركة للبحث.
شاهد التقرير الكامل:https://go.hyper.ai/e96ci
مقالات موسوعية شعبية
1. وحدة متكررة مسورة
2. دمج الفرز العكسي
3. التشتت الغاوسي ثلاثي الأبعاد
4. الاستدلال القائم على الحالة
5. الذاكرة طويلة المدى ثنائية الاتجاه
فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:https://go.hyper.ai/wiki
الموعد النهائي للقمة في يونيو
قاعدة بيانات VLDB 2026 2 يونيو 7:59:59
مؤشر ستاندرد آند بورز 2026 6 يونيو 7:59:59
اي سي دي 2026 19 يونيو 7:59:59
تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event
إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!
نراكم في الاسبوع القادم!